Articles / augustus 24, 2021

de wetenschap van het voorspellen van voetbalresultaten

het voorspellen van voetbalresultaten is een snel groeiend gebied van academische interesse. Economen gebruiken modellen om de efficiëntie van gokmarkten te beoordelen, operationele onderzoekers gebruiken modellen om te experimenteren met de verschillende effecten van toernooiontwerp, en statistici laten hun vaardigheid met geavanceerde statistische technieken zien door de fijne kneepjes van voetbalgegevens te modelleren.

het zijn natuurlijk niet alleen academici die de archieven van voetbalscores delven. Bookmakers leven en ademen voetbalvoorspellingsmodellen-net als de meer toegewijde flutterers. Fouten kosten geld en banen, terwijl het vinden van een klein voordeel grote beloningen kan dragen.

gokmarkten

in de academische wereld is de meest gebruikte toepassing van voorspellingsmodellen voor voetbal het testen van de efficiëntie van de gokmarkt. De Efficient Markets Hypothesis (EMH) is een hoeksteen van de financiële theorie en stelt, in zijn eenvoudigste vorm, dat een belegger niet in staat zou moeten zijn om consequent rendement boven het gemiddelde te behalen. Het vinden van een voorspellend model van voetbal dat betere-dan-gemiddelde – of zelfs positieve – rendementen kan genereren resulteert meestal in een publicatie voor de academische als een voorbeeld van een schending van de EMH, maar de eigen aard van de modellen betekent dat de gepubliceerde zelden (of ooit) vertegenwoordigen de allerbeste modellen, en nog minder vaak genereren positieve rendementen consequent.

de best presterende modellen zijn de reserve van de gokindustrie. Het is van het grootste belang voor een bookmaker om kansen te stellen op een waarde die realistisch de kansen van een wedstrijd wordt gewonnen, getrokken of verloren vertegenwoordigen. Als de bookmaker faalt om dit te doen, zal het risico enorme verliezen.Bijvoorbeeld, Aziatische bookmakers zouden er niets aan denken om een individuele inzet van US $ 200.000 te nemen – en regelmatig weddenschappen van $400.000 te ontvangen-en een typisch weekend in de Engelse Premier League trekt doorgaans een omzet van $500 miljoen aan in Azië. Met dergelijke getijden van contant geld wordt ingezet, is het niet verwonderlijk dat bookmakers gebruik maken van alle mogelijke tool tot hun beschikking – een van hen zijn wiskundige modellen.

een wiskundig model wordt doorgaans niet alleen gebruikt om odds vast te stellen. Een expert odds-setter wordt gebruikt om de model-gegenereerde odds aan te passen gegeven eventuele extra informatie. Bijvoorbeeld, een typisch model kan rekening houden met de recente resultaten van een team en de positie van elk team in de competitie alleen. De odds-setter zal dan deze voorspelde odds aanpassen om rekening te houden met, Laten we zeggen, een blessure aan een sterspeler.

aan de andere kant van de markt zijn de gokkers. Gespecialiseerde bedrijven bieden diensten aan om klanten te adviseren welke weddenschappen te maken. Maciej Jarowek is een wedden consultant voor AsianConnect88.com een gokker. Ik vroeg hem naar zijn gedachten over het gebruik van wiskunde in de industrie. Zoals een bookmaker doet, gebruikt hij een model om hem een startpunt te geven en past vervolgens de kansen aan zoals hij dat nodig acht.

Jarowek is een expert op het gebied van Pools voetbal, en wanneer hij een discrepantie vindt tussen zijn kansen en die van de bookmakers, kan hij kiezen of de discrepantie voldoende is om een weddenschap te plaatsen. Hij zegt dat het grootste voordeel dat professionele gokkers hebben ten opzichte van de bookmaker is dat ze niet hoeven te wedden op elke wedstrijd – ze kunnen kiezen en kiezen. Gezien het feit dat Jarowek is een van de vele professionele gokkers werken voor AsianConnect88.com, en dat er tal van dergelijke agentschappen in werking zijn, het lijkt erop dat er veel ruimte is om de markt te verslaan.

vergeleken met andere sporten is het resultaat van een voetbalwedstrijd relatief moeilijk te voorspellen. Sommige academici geloven dat dit is een van de bronnen van de populariteit van voetbal – fans nooit echt weten de uitkomst van een wedstrijd voordat het is gebeurd waardoor het kijken naar de wedstrijd een spannende propositie.

experts maken carrières op basis van deze onzekerheid van de uitkomst en besteden eindeloze uren nadenken over elke mogelijke gebeurtenis in een wedstrijd. Er zijn ontelbare verstoringen in het binnenlandse voetbal elk weekend, en de World Cup gooit zijn redelijk deel van de gigantische moorden. Gezien deze inherente onvoorspelbaarheid, hoe kunnen we voorspellingen doen?

er zijn twee brede benaderingen om de resultaten van voetbalwedstrijden te modelleren. Ten eerste kan men het resultaat direct voorspellen – of het resultaat een overwinning, een gelijkspel of een verlies zal zijn. In dit geval is de uitkomst (win, verlies, remise) een ordinale variabele (een overwinning is beter dan een remise die beter is dan een verlies). Het model van keuze hier is een ordinale regressie één, zoals geordende probit. De output van een dergelijk model is de waarschijnlijkheid van elke uitkomst, zodat men voor een aanstaande wedstrijd het model kan gebruiken om de waarschijnlijkheid van een overwinning, gelijkspel of verlies te berekenen.

de tweede benadering voor het modelleren van een wedstrijduitkomst is een indirecte methode waarbij de analist de exacte score van het spel modelleert. In dit geval, de analist schat de waarschijnlijkheid van elk mogelijk aantal doelpunten gescoord door elk team. Men kan dan de waarschijnlijkheid van een team winnen, trekken of verliezen van de wedstrijd afleiden door het optellen van de relevante exacte score waarschijnlijkheden.

een geordende probit

er zijn aanwijzingen dat er weinig verschil is in de prestaties van elke benadering in het resultaat van de modellering. Hier bouw ik een model van het eerste type, namelijk een ‘besteld probit’ model.

het geordende probitmodel kan worden gebruikt om de waarschijnlijkheid van de drie uitkomsten van een overeenkomst te schatten. Om dit te doen, het maakt gebruik van informatie over elk team. Het lijkt bijvoorbeeld redelijk dat een team dat zijn laatste drie wedstrijden heeft gewonnen, een grotere kans heeft om zijn volgende wedstrijd te winnen dan een team dat zijn laatste drie wedstrijden heeft verloren. Ook een team dat hoger is gerangschikt dan de oppositie heeft een grotere kans op het winnen van de wedstrijd dan het lager geplaatste team. Het bedrag van de win waarschijnlijkheid verandert, gegeven deze nuggets van informatie worden beheerst door de modelparameters. In een statistisch model worden de parameters geschat om het beste uit te leggen wat er in het verleden is gebeurd.

mijn model hier is gebaseerd op bijna 9.000 internationale wedstrijdresultaten over een periode van acht jaar. De informatie en de effecten op de kans dat een team een wedstrijd wint zijn:

locatie-thuis / weg of neutraal. Een team heeft meer kans om te winnen als thuis;
afstand van de hoofdstad naar de spellocatie. Een team heeft meer kans om te winnen de kortere afstand afgelegd (door fans en het team zelf);
verschil in wereldranglijst tussen de teams. Een hoger gerangschikt team is meer kans om te winnen;
verandering in de wereldranglijst voor elk team gedurende de voorafgaande twaalf maanden. Een beter team heeft meer kans om te winnen;
type wedstrijd, namelijk: groot toernooi (wk of Confederatie kampioenschap), klein toernooi (andere FIFA – gesanctioneerd een), qualifier of friendly. Betere teams nemen grote toernooien serieuzer;
wedstrijdresultaten in het verleden. Voor elke wedstrijd gebruik ik de vorige acht uitslagen voor elk team (gemiddeld speelt een nationale ploeg acht wedstrijden in een periode van 12 maanden). Naast de resultaten, ken ik de wereldranglijst voor elk van de acht oppositie teams op het moment van de wedstrijd.

aan de hand van de informatie over de resultaten uit het verleden moet een beetje extra worden nagedacht. Een 1-0 overwinning voor een team gerangschikt 200 versus een team gerangschikt 4 is duidelijk een betere prestatie dan wanneer de teams werden gerangschikt 200 en 198 respectievelijk. Bijgevolg moeten de resultaten uit het verleden worden gewogen ten opzichte van het resultaat en ten opzichte van de sterkte van de oppositie. Een prestatiemetrie uit het verleden (ppm), die deze relatie vangt, wordt gegeven door de formule aan de bovenkant (links) van deze pagina.

deze ppm gaat van’ -1 ‘naar’ 1′, waarbij’ -1 ‘het slechtst mogelijke resultaat vertegenwoordigt – het hoogst gerangschikte team verliest van het laagst gerangschikte team-en’ 1 ‘ het slechtst gerangschikte team vertegenwoordigt dat het best gerangschikte team verslaat. Merk op dat 204 de maximale waarde is van de ranglijst van een team tijdens de betreffende periode. De prestatiemeting uit het verleden staat bovenaan (rechts) van deze pagina.

(Sshhh – ik voorspel de Wereldbekerwinnaar)

het hierboven beschreven geordende probitmodel kan worden gebruikt om de waarschijnlijkheid van elke uitkomst (winst/gelijkspel/verlies) in één wedstrijd te schatten. Een bookmaker kan deze kansen gebruiken om odds-setters te informeren, terwijl een gokker ze kan gebruiken om te beoordelen of een weddenschap moet worden geplaatst.

om de winnaar van het WK 2010 te voorspellen, moet men de winnaar van een reeks wedstrijden voorspellen. Om dit te doen, gebruik ik simulatie, en heb code geschreven die het aangepaste model van de match uitkomst gebruikt om het hele toernooi te simuleren. Het WK begint met acht mini-competities (groepen) van vier teams, die één keer tegen elkaar spelen. De eerste-en tweede geplaatste teams in elke groep gaan dan door naar de knock-outfase. Deze toernooistructuur beïnvloedt de kans dat een team wint.

bijvoorbeeld, in het komende WK zijn Brazilië en Portugal de meest waarschijnlijke teams die doorgroeien uit Groep G. Het meest waarschijnlijke team om groep H te winnen is Spanje. De winnaars (runners-up) van Groep H ontmoeten dan de runners-up (winnaars) van Groep G in de eerste knock-out ronde. Zo is Spanje bijna verzekerd van een moeilijke wedstrijd in de eerste knock-out ronde. Vergelijk dit met Groep A favorieten, Frankrijk, die hoogstwaarschijnlijk de runner-up van Groep B. gezien Groep B favorieten, Argentinië, zijn veel sterker dan de andere teams in de groep, Frankrijk (en Argentinië) hebben waarschijnlijk minder moeilijke wedstrijden in de eerste knock-out fase dan Spanje, Brazilië en Portugal.

het is dan ook duidelijk dat het voorspellen van de winnaars van het toernooi niet alleen een kwestie is van het kiezen van het beste team. Men moet rekening houden met het effect van de toernooistructuur. De resultaten van 100.000 gesimuleerde toernooien worden weergegeven in de tabel, links.Ondanks hun ogenschijnlijk moeilijke remise staan Spanje en Brazilië nog steeds op de eerste en tweede plaats in termen van aantal overwinningen. Het aantal overwinningen kan gemakkelijk worden omgezet in een voorspelde kans op het winnen van het toernooi voor elk team dat wordt weergegeven in de derde kolom van de tabel (links).

het is interessant om de voorspelde winstkansen te vergelijken met de wereldranglijst van de FIFA. Frankrijk is een grote speler naar boven-mogelijk vanwege hun gemakkelijkere loting, terwijl Portugal naar de negende favorieten zakt, ondanks het feit dat het de derde plaats in de wereld inneemt.

aangezien een dergelijk model het vaakst wordt gebruikt om de waarschijnlijkheden te vergelijken met die van bookmakers, geven de vijfde en zesde kolom van de tabel de odds en impliciete waarschijnlijkheden van Bet365, zoals op de datum waarop ik mijn voorspellingen deed (14 mei 2010). Ik moet toegeven, toen ik zag de overeenkomsten, ik was blij – het bevestigt het model en simulatie oefening geven verstandige resultaten. Bij nader onderzoek komen echter enkele discrepanties aan het licht. Disclaimer tijd: let op: Ik raad je niet aan om deze kansen te gebruiken om een weddenschap te plaatsen. De bookmakers weten echt wat ze doen en nemen veel meer informatie die ik heb gebruikt om hun kansen te informeren-ze worden ook veel meer betaald dan ik ben voor het doen van dit soort dingen!

het lijkt erop dat de bookmakers denken dat Spanje en Brazilië meer kans hebben om te winnen dan ik, wat suggereert dat dit eigenlijk geen goede teams zijn om terug te keren (op deze kansen). Dit zou kunnen zijn omdat ze zich beschermen tegen de markt die graag in deze teams – een soortgelijk verhaal is waar voor Engeland.Frankrijk daarentegen biedt een goede prijs-het model suggereert dat de kans op overwinning bijna twee keer zo groot is als de kans die de bookmaker aanneemt. Het zal moeilijk te nemen voor een Republiek Ierland fan, als Frankrijk zou gaan om het WK te winnen, gezien het feit dat ze uit het WK werden geslagen door Frankrijk vooruit Thierry Henry ‘s 21e-eeuwse spin op de’ hand van God ‘ doel.

dus hier is het – Ik zet mijn nek op de lijn (althans het model doet dat) om u enkele tips te geven, puur op basis van statistieken (niet mijn mening):

Spanje is de favorieten van het toernooi, maar biedt mogelijk geen waar voor je geld. (De scherpzinnigere lezer zal dit herkennen als een beetje het antwoord van een politicus: als Spanje wint, kan ik zeggen: “Ik zei toch dat ze favorieten waren”, terwijl als ze verliezen, Ik kan zeggen: “Ik zei toch dat ze geen goede weddenschap waren – er was een kans van 88,4 procent dat ze niet zouden winnen”!)

Frankrijk winnen is een goede weddenschap.

Ik heb Jarowek ook overgehaald om me een tip te geven:

Brazilië wint niet. (Typisch gereserveerd en voorzichtig).

Het model voorspellingen voor de laatste stadia van het toernooi:

QF1: Nederland vs Brazilië

QF2: Frankrijk vs Engeland

QF3: Duitsland vs Argentinië

QF4: Italië vs Spanje

Semi-definitieve line-up:

SF1: Brazilië-Frankrijk

SF2: Argentinië versus Spanje

Finale:

Brazilië vs. Spanje

Vrij logisch eigenlijk! Ik moet zeggen dat, hoewel mijn reputatie als statisticus berust op deze tips redelijk goed, Ik zal juichen op mijn geboorteland Engeland ongeacht wie de oppositie. Ik wacht in afwachting van de aftrap op 11 juni…

International Blogging Network