vetenskapen om att förutsäga fotbollsresultat
förutsäga fotbollsresultat är ett snabbt växande område av akademiskt intresse. Ekonomer använder modeller för att bedöma effektiviteten på vadslagningsmarknaderna, operativa forskare använder modeller för att experimentera med de olika effekterna av turneringsdesign och statistiker visar sin skicklighet med avancerade statistiska tekniker genom att modellera invecklingarna i fotbollsdata.
det är naturligtvis inte bara akademiker som bryter arkiven för fotbollsresultat. Bookmakers lever och andas fotboll förutsägelse modeller – liksom de mer engagerade flutterers. Misstag kostar pengar och jobb, samtidigt hitta en liten fördel kan bära stora belöningar.
spelmarknader
i akademin är den vanligaste tillämpningen av fotbollsprognosmodeller att testa för vadslagningsmarknadens effektivitet. Den effektiva marknadshypotesen (EMH) är en hörnsten i finansiell teori och säger i sin enklaste form att en investerare inte ska kunna konsekvent få avkastning över genomsnittet. Att hitta en prognosmodell för fotboll som kan generera bättre än genomsnittet-eller till och med positiv-avkastning resulterar vanligtvis i en publikation för akademikern som ett exempel på en överträdelse av EMH, men modellernas proprietära karaktär innebär att de publicerade sällan (om någonsin) representerar de allra bästa modellerna och ännu mindre ofta genererar positiv avkastning konsekvent.
de bäst presterande modellerna är spelindustrins reserv. Det är av största vikt för en bookmaker att sätta odds till ett värde som realistiskt representerar sannolikheten för att en match vinner, dras eller förloras. Om bookmakern misslyckas med att göra detta riskerar det stora förluster.
till exempel skulle asiatiska bookmakers inte tänka på att ta en individuell satsning på US$200,000 – och regelbundet få satsningar på $400,000 – och en typisk helg i den engelska Premier League lockar vanligtvis $500m omsättning i Asien. Med sådana tidvatten av kontanter som satsas, det är inte förvånande att bookmakers använder sig av alla möjliga verktyg till sitt förfogande – en av dem är matematiska modeller.
en matematisk modell används vanligtvis inte ensam för att ställa in odds. En expert odds-setter används för att justera modellgenererade odds ges någon extra information. Till exempel kan en typisk modell ta hänsyn till de senaste resultaten av ett lag och varje lags position i ligan endast. Odds-setter kommer då att justera dessa förutsagda odds för att ta hänsyn till, säg, en skada på en stjärnspelare.
på andra sidan marknaden, är spelarna. Specialiserade företag erbjuder tjänster för att ge kunderna råd om vilka satsningar som ska göras. Maciej Jarowek är en spelkonsult för AsianConnect88.com, en vadslagningsmäklare. Jag bad honom om hans tankar om användningen av matematik i branschen. Som en bookmaker gör använder han en modell för att ge honom en utgångspunkt och justerar sedan oddsen som han tycker är lämplig.
Jarowek är en expert på polsk fotboll, och när han finner en skillnad mellan sina odds och bookmakers, kan han välja om skillnaden är tillräcklig för att ge råd om att satsa. Han säger att den största fördelen professionella spelare har över bookmaker är att de inte behöver satsa på varje match – de kan välja och vraka. Med tanke på att Jarowek är en av många professionella spelare som arbetar för AsianConnect88.com, och att det finns många sådana byråer i drift, det verkar som om det finns stort utrymme för att slå marknaden.
jämfört med andra sporter är resultatet av en fotbollsmatch relativt svårt att förutsäga. Vissa akademiker tror att detta är en av källorna till fotbollens popularitet – fans vet aldrig riktigt resultatet av en match innan det har hänt att titta på spelet ett spännande förslag.
Pundits gör karriärer baserat på denna osäkerhet om resultatet och spenderar oändliga timmar som överväger varje möjlig händelse i en match. Det finns otaliga störningar i inhemsk fotboll varje helg, och VM kastar upp sin rättvisa andel av jättemord. Med tanke på denna inneboende oförutsägbarhet, hur kan vi göra förutsägelser?
det finns två breda tillvägagångssätt för modellering av fotbollsmatchresultat. Först kan man förutsäga resultatet direkt – om resultatet blir en vinst, oavgjort eller förlust. I det här fallet är resultatet (vinst, förlust, rita) en ordinär variabel (en vinst är bättre än en rita som är bättre än en förlust). Modellen av valet här är en ordinär regression, såsom beställd probit. Utgången från en sådan modell är sannolikheten för varje utfall, så att för en kommande match kan man använda modellen för att beräkna sannolikheten för en vinst, rita eller förlust.
det andra tillvägagångssättet för att modellera ett matchresultat är en indirekt metod där analytikern modellerar spelets exakta poäng. I det här fallet uppskattar analytikern sannolikheten för varje möjligt antal mål som görs av varje lag. Man kan sedan dra slutsatsen sannolikheten för ett lag vinna, rita eller förlora matchen genom att summera relevanta exakta poäng sannolikheter.
en beställd probit
bevis tyder på mycket liten skillnad i prestanda för varje tillvägagångssätt i modelleringsmatchresultat. Här bygger jag en modell av den första typen, nämligen en ‘beställd probit’ – modell.
den beställda probitmodellen kan användas för att uppskatta sannolikheten för de tre resultaten av en match. För att göra detta använder den information om varje lag. Till exempel, det verkar rimligt att ett lag som har vunnit sina tre Senaste matcher har en högre sannolikhet att vinna sin nästa match än ett lag som har förlorat sina tre Senaste matcher. På samma sätt har ett lag som rankas högre än oppositionen en högre sannolikhet att vinna matchen än det lägre rankade laget. Mängden vinstsannolikhet ändras, med tanke på dessa nuggets av information styrs av modellparametrarna. I en statistisk modell beräknas parametrarna bäst förklara vad som hänt tidigare.
min modell här är baserad på nästan 9 000 internationella matchresultat under en åttaårsperiod. Informationen och effekterna på sannolikheten för att ett lag vinner en match är:
- plats-hemma / borta eller neutral. Ett lag är mer sannolikt att vinna om hemma;
- avstånd från huvudstad till spelplats. Ett lag är mer sannolikt att vinna den kortare sträckan (av fans och laget själv);
- skillnad i världsranking mellan lagen. Ett högre rankat lag är mer sannolikt att vinna;
- förändring i världsrankingen för varje lag under de senaste 12 månaderna. Ett förbättrat lag är mer sannolikt att vinna;
- typ av match, nämligen: major tournament (World Cup eller confederation championship), minor tournament (annan FIFA – sanktionerad), qualifier eller friendly. Bättre lag tar större turneringar på större allvar;
- tidigare matchresultat. För varje spel använder jag de tidigare åtta resultaten för varje lag (i genomsnitt spelar ett landslag åtta matcher under en 12-månadersperiod). Förutom resultaten känner jag till världsrankingen för vart och ett av de åtta oppositionslagen vid spelets gång.
att använda informationen om tidigare resultat behöver lite extra tanke. En 1-0-seger för ett lag rankat 200 mot ett lag rankat 4 representerar tydligt en bättre prestanda än om lagen rankades 200 respektive 198. Som en konsekvens bör de tidigare resultaten vägas i förhållande till resultatet och i förhållande till oppositionens styrka. Ett tidigare prestandamått (ppm), som fångar detta förhållande, ges av formeln längst upp (till vänster) på denna sida.
denna ppm går från ‘ -1 ’till’ 1′, där’ -1 ‘representerar det sämsta resultatet möjligt – det topprankade laget förlorar till det nedre rankade laget-och’ 1 ‘ representerar det sämst rankade laget som slår det bäst rankade laget. Observera att 204 är det maximala värdet av rankningen av något lag under den aktuella perioden. Mätvärdet för tidigare prestanda ritas upp längst upp (till höger) på denna sida.
(Sshhh – jag förutspår VM-vinnaren)
den beställda probitmodellen som beskrivs ovan kan användas för att uppskatta sannolikheten för varje utfall (vinst/oavgjort/förlust) i en match. En bookmaker kan använda dessa sannolikheter för att informera oddssättare, medan en spelare kan använda dem för att bedöma om en satsning ska placeras.
för att förutsäga vinnaren av VM 2010 måste man förutsäga vinnaren av en serie matcher. För att göra detta använder jag simulering och har skrivit kod som använder den monterade modellen för matchresultat för att simulera hela turneringen. VM börjar med åtta mini-ligor (grupper) med fyra lag som spelar varandra en gång. De första och andra placerade lagen i varje grupp går sedan vidare till knockout-etapperna. Denna turneringsstruktur påverkar sannolikheten för att ett lag vinner.
till exempel i det kommande VM är de mest troliga lagen att gå vidare från Grupp G Brasilien och Portugal. Det mest troliga laget att vinna Grupp H är Spanien. Vinnarna (andra plats) i Grupp H möter sedan andra plats (vinnare) i Grupp G i den första knockout-omgången. Således är Spanien nästan garanterat en svår match i den första knockout-rundan. Jämför detta med grupp A-favoriter, Frankrike, som sannolikt kommer att möta andraplatsen i Grupp B. Med tanke på grupp B-favoriter, Argentina, är mycket starkare än de andra lagen i gruppen, Frankrike (och Argentina) kommer sannolikt att ha mindre svåra matcher i den första knockout-etappen än Spanien, Brasilien och Portugal.
det är tydligt då, att förutsäga vinnarna i turneringen övergripande är inte bara en fråga om att plocka det bästa laget. Man måste ta hänsyn till effekten av turneringsstrukturen. Resultaten av 100.000 simulerade turneringar visas i tabellen, vänster.
trots sina till synes svåra dragningar är Spanien och Brasilien fortfarande första och andra när det gäller antalet segrar. Antalet vinster kan enkelt omvandlas till en förutsagd sannolikhet att vinna turneringen för varje lag som visas i den tredje kolumnen i tabellen (vänster).
det är intressant att jämföra de förutsagda vinstsannolikheterna med FIFA: s världsranking. Frankrike är stora movers uppåt-möjligen på grund av deras enklare dragning, medan Portugal faller till nionde favoriter, trots att det är det tredje rankade laget i världen.
med tanke på att den vanligaste användningen av en sådan modell är att jämföra sannolikheterna med bookmakers, ger den femte och sjätte kolumnen i tabellen oddsen och underförstådda sannolikheter från Bet365, som vid det datum jag gjorde mina förutsägelser (14 maj 2010). Jag måste erkänna, när jag såg likheterna, var jag nöjd-det bekräftar modellen och simuleringsövningen ger förnuftiga resultat. Närmare inspektion avslöjar dock vissa skillnader. Disclaimer time: Observera att jag inte föreslår att du använder dessa odds för att satsa. Bookies verkligen vet vad de gör och införliva mycket mer information jag har använt för att informera sina odds – de är också betalat mycket mer än jag för att göra denna typ av sak!
det verkar som om bookmakarna tror att Spanien och Brasilien är mer benägna att vinna än jag, vilket tyder på att dessa faktiskt inte är bra lag att backa (vid dessa odds). Det kan bero på att de skyddar sig mot marknaden som är angelägen om att vara på dessa lag – en liknande historia är sant för England.
Frankrike, å andra sidan, erbjuder bra värde – modellen antyder sannolikheten för seger är nästan dubbelt så stor sannolikhet antas av bookmaker. Det kommer att bli svårt att ta för någon Irland fan, om Frankrike skulle gå på att vinna VM, med tanke på att de slogs ut ur VM av Frankrike framåt Thierry Henrys 21: a århundradet spinn på ‘Guds hand’ mål.
så här är det – jag lägger min nacke på linjen (åtminstone modellen gör) för att ge dig några tips, baserade enbart på statistik (inte min åsikt):
Spanien är turneringens favoriter, men kanske inte erbjuder valuta för pengarna. (Ju mer skarpsinniga läsare kommer att känna igen detta som en bit av en politiker svar: om Spanien vinner, jag kan säga ‘Jag sa att de var favoriter’, medan om de förlorar, jag kan säga ‘Jag sa att de inte var en bra satsning – det fanns en 88,4 procent sannolikhet för dem inte vinna’!)
Frankrike att vinna är en bra satsning.
jag övertalade också Jarowek att ge mig ett tips:
Brasilien inte att vinna. (Vanligtvis reserverad och försiktig).
modellens förutsägelser för de senare stadierna av turneringen är:
QF1: Holland vs Brasilien
QF2: Frankrike vs England
QF3: Tyskland vs Argentina
QF4: Italien vs Spanien
Semifinal line up:
SF1: Brasilien vs Frankrike
SF2: Argentina vs Spanien
Final:
Brasilien vs Spanien
ganska uppenbart verkligen! Jag borde säga det, även om mitt rykte som statistiker vilar på att dessa tips är ganska bra, jag kommer att heja på mitt hemland England oavsett vem oppositionen. Jag väntar i väntan på kick-off den 11 juni…
Leave a Reply