videnskaben om at forudsige fodboldresultater

forudsigelse af fodboldresultater er et hurtigt voksende område af akademisk interesse. Økonomer bruger modeller til at vurdere effektiviteten af væddemålsmarkeder, operationelle forskere bruger modeller til at eksperimentere med de forskellige effekter af turneringsdesign, og statistikere viser deres færdigheder med avancerede statistiske teknikker ved at modellere indviklingen i fodbolddata.

det er selvfølgelig ikke kun akademikere, der udvinder arkiverne for fodboldresultater. Bookmakere lever og ånder fodbold forudsigelsesmodeller – ligesom de mere engagerede fladdere. Fejl koster penge og job, mens at finde en lille fordel kan bære store belønninger.

Væddemålsmarkeder

i den akademiske verden er den mest almindelige anvendelse af fodboldprognosemodeller at teste for væddemålsmarkedets effektivitet. Det effektiv markedshypotese (EMH) er en hjørnesten i finansiel teori og siger i sin enkleste form, at en investor ikke skal være i stand til konsekvent at opnå afkast over gennemsnittet. At finde en prognosemodel for fodbold, der kan generere bedre end gennemsnittet-eller endda positive-afkast resulterer normalt i en publikation for akademikeren som et eksempel på en krænkelse af EMH, men modellernes proprietære karakter betyder, at de offentliggjorte sjældent (hvis nogensinde) repræsenterer de allerbedste modeller og endnu mindre ofte genererer positive afkast konsekvent.

de bedst præsterende modeller er spilindustriens reserve. Det er afgørende for en bookmaker at sætte odds til en værdi, der realistisk repræsenterer sandsynligheden for, at en kamp bliver vundet, trukket eller tabt. Hvis bookmakeren undlader at gøre dette, vil det risikere store tab.

for eksempel ville asiatiske bookmakere ikke tænke på at tage et individuelt væddemål på US$200.000 – og regelmæssigt modtage væddemål på $400.000-og en typisk helgen i den engelske Premier League tiltrækker typisk $500m omsætning i Asien. Med sådanne tidevand af kontanter bliver satset, er det ikke overraskende, at bookmakere gør brug af alle mulige værktøj til deres rådighed – en af dem er matematiske modeller.

en matematisk model bruges typisk ikke alene til at indstille odds. En ekspert odds-setter er ansat til at justere de model-genererede odds givet yderligere oplysninger. For eksempel kan en typisk model tage højde for de seneste resultater af et hold og hvert holds position i ligaen kun. Odds-setter justerer derefter disse forudsagte odds for at tage højde for, sige, en skade på en stjernespiller.

på den anden side af markedet, er spillerne. Specialiserede virksomheder tilbyder tjenester til at rådgive klienter, hvilke væddemål der skal foretages. Maciej er en betting konsulent for AsianConnect88.com, en væddemål mægler. Jeg bad ham om hans tanker om brugen af matematik i branchen. Som en bookmaker gør, bruger han en model til at give ham et udgangspunkt og justerer derefter oddsene, som han finder passende.

han er ekspert i polsk fodbold, og når han finder en uoverensstemmelse mellem hans odds og bookmakernes odds, kan han vælge, om uoverensstemmelsen er nok til at rådgive om at placere et væddemål. Han siger, at den største fordel, som professionelle spillere har over bookmakeren, er, at de ikke behøver at satse på hver kamp – de kan vælge og vælge. I betragtning af, at er en af mange professionelle spillere, der arbejder for AsianConnect88.com, og at der er mange sådanne agenturer i drift, ser det ud til, at der er betydelige muligheder for at slå markedet.

sammenlignet med andre sportsgrene er resultatet af en fodboldkamp relativt vanskeligt at forudsige. Nogle akademikere mener, at dette er en af kilderne til fodboldens popularitet – fans ved aldrig rigtig resultatet af en kamp, før det er sket, hvilket gør at se spillet til et spændende forslag.

Pundits laver karriere baseret på denne usikkerhed om resultatet og bruger uendelige timer på at overveje hver eneste mulige begivenhed i en kamp. Der er utallige forstyrrelser i indenlandsk fodbold hver uge, og verdensmesterskabet kaster sin rimelige andel af kæmpedrab op. I betragtning af denne iboende uforudsigelighed, hvordan kan vi lave forudsigelser?

der er to brede tilgange til modellering af fodboldkampresultater. For det første kan man forudsige resultatet direkte – om resultatet bliver en sejr, uafgjort eller et tab. I dette tilfælde er resultatet (sejr, tab, uafgjort) en ordinær variabel (en sejr er bedre end uafgjort, hvilket er bedre end et tab). Den valgte model her er en ordinær regression, såsom bestilt probit. Udgangen fra en sådan model er sandsynligheden for hvert resultat, så man for en kommende kamp kan bruge modellen til at beregne sandsynligheden for en sejr, uafgjort eller tab.

den anden tilgang til modellering af et matchresultat er en indirekte metode, hvor analytikeren modellerer den nøjagtige score i spillet. I dette tilfælde estimerer analytikeren sandsynligheden for hvert muligt antal mål scoret af hvert hold. Man kan derefter udlede sandsynligheden for, at et hold vinder, tegning eller taber kampen ved at opsummere de relevante nøjagtige scoresandsynligheder.

en bestilt probit

bevis tyder på meget lille forskel i udførelsen af hver tilgang i modellering match resultat. Her bygger jeg en model af den første type, nemlig en ‘bestilt probit’ model.

den bestilte probit-model kan bruges til at estimere sandsynligheden for de tre resultater af en kamp. For at gøre dette bruger den oplysninger om hvert hold. For eksempel synes det rimeligt, at et hold, der har vundet sine sidste tre kampe, har større sandsynlighed for at vinde sin næste kamp end et hold, der har mistet sine sidste tre kampe. Tilsvarende, et hold, der rangeres højere end oppositionen, har en højere sandsynlighed for at vinde kampen end det lavere rangerede hold. Mængden af gevinstsandsynligheden ændres, da disse nuggets af information styres af modelparametrene. I en statistisk model estimeres parametrene til bedst at forklare, hvad der er sket i fortiden.

min model her er baseret på næsten 9.000 internationale kampresultater over en otte-årig periode. Oplysningerne og virkningerne på sandsynligheden for, at et hold vinder en kamp, er:

  • sted-hjemme / væk eller neutral. Et hold er mere tilbøjelige til at vinde, hvis hjemme;
  • afstand fra hovedstad til spil placering. Et hold er mere tilbøjelige til at vinde jo kortere den tilbagelagte afstand (af fans og holdet selv);
  • forskel i verdensrangering mellem holdene. Et højere rangeret hold er mere tilbøjelige til at vinde;
  • ændring i verdensranglisten for hvert hold i løbet af de foregående 12 måneder. Et forbedrende hold er mere tilbøjelige til at vinde;
  • type kamp, nemlig: større turnering (verdensmesterskab eller konføderationsmesterskab), mindre turnering (anden FIFA – sanktioneret), kvalifikationskamp eller Venlig. Bedre hold tager større turneringer mere alvorligt;
  • tidligere kampresultater. For hvert spil bruger jeg de foregående otte resultater for hvert hold (i gennemsnit spiller et landshold otte kampe i en 12-måneders periode). Ud over resultaterne kender jeg verdensranglisten for hvert af de otte oppositionshold på tidspunktet for spillet.

brug af oplysninger om tidligere resultater har brug for lidt ekstra tanke. En 1-0-sejr for et hold rangeret 200 versus et hold rangeret 4 repræsenterer klart en bedre præstation, end hvis holdene blev rangeret henholdsvis 200 og 198. Som følge heraf skal de tidligere resultater vægtes i forhold til resultatet og i forhold til modstandens styrke. En past performance metric (ppm), som indfanger denne relation, er givet ved formlen øverst (til venstre) på denne side.

denne ppm går fra’ -1 ’til’ 1′, hvor’ -1 ‘repræsenterer det dårligst mulige resultat – det toprangerede hold taber til det bundrangerede hold-og’ 1 ‘ repræsenterer det dårligst rangerede hold, der slår det bedst rangerede hold. Bemærk, at 204 er den maksimale værdi af rangordningen af ethvert hold i den betragtede periode. Den tidligere præstationsmåling er afbildet øverst (højre) på denne side.

(Sshhh – jeg forudsiger verdensmesterskabet)

den bestilte probit-model beskrevet ovenfor kan bruges til at estimere sandsynligheden for hvert resultat (sejr/uafgjort/tab) i en kamp. En bookmaker kan bruge disse sandsynligheder til at informere odds-settere, mens en spiller kan bruge dem til at vurdere, om et væddemål skal placeres.

for at forudsige vinderen af verdensmesterskabet 2010 skal man forudsige vinderen af en række kampe. For at gøre dette bruger jeg simulering og har skrevet kode, der bruger den monterede model af kampresultatet til at simulere hele turneringen. Verdensmesterskabet starter med otte mini-ligaer (grupper) på fire hold, der spiller hinanden en gang. De første-og andenplacerede hold i hver gruppe går derefter videre til knockout-stadierne. Denne turneringsstruktur påvirker sandsynligheden for, at et hold vinder.

for eksempel i det kommende verdensmesterskab er de mest sandsynlige hold, der kommer videre fra gruppe G, Brasilien og Portugal. Det mest sandsynlige hold til at vinde Gruppe H er Spanien. Vinderne (andenpladsen) i gruppe H møder derefter andenpladsen (vinderne) i gruppe G i den første knockout-runde. Således er Spanien næsten garanteret en vanskelig kamp i den første knockout-runde. Sammenlign dette med gruppe A-favoritter, Frankrig, der sandsynligvis vil møde andenpladsen i gruppe B. givet gruppe B-favoritter, Argentina, er meget stærkere end de andre hold i gruppen, Frankrig (og Argentina) har sandsynligvis mindre vanskelige kampe i den første knockout-fase end Spanien, Brasilien og Portugal.

det er klart, at forudsigelse af vinderne af turneringen generelt ikke kun er et tilfælde af at vælge det bedste hold. Man skal tage højde for effekten af turneringsstrukturen. Resultaterne af 100.000 simulerede turneringer er vist i tabellen, venstre.

på trods af deres tilsyneladende vanskelige uafgjort er Spanien og Brasilien stadig første og anden med hensyn til antal sejre. Antallet af sejre kan let konverteres til en forudsagt Sandsynlighed for at vinde turneringen for hvert hold, som vises i den tredje kolonne i tabellen (til venstre).

det er interessant at sammenligne de forudsagte vindersandsynligheder med FIFA ‘ s verdensrangliste. Frankrig er store movers opad-muligvis på grund af deres lettere uafgjort, mens Portugal falder til niende favoritter, på trods af at det er det tredje rangerede hold i verden.

i betragtning af at den hyppigste anvendelse af en sådan model er at sammenligne sandsynlighederne med bookmakernes, giver den femte og sjette kolonne i tabellen odds og underforståede sandsynligheder fra Bet365, som på den dato, hvor jeg lavede mine forudsigelser (14.maj 2010). Jeg må indrømme, da jeg så lighederne, jeg var glad – det bekræfter modellen og simulering øvelse giver fornuftige resultater. Imidlertid afslører nærmere inspektion nogle uoverensstemmelser. Ansvarsfraskrivelse tid: bemærk, at jeg ikke foreslår, at du bruger disse odds til at placere et væddemål. Bookmakerne ved virkelig, hvad de laver, og inkorporerer langt mere information, jeg har brugt til at informere deres odds – de betales også meget mere, end jeg er for at gøre denne slags ting!

det ser ud til, at bookmakerne tror, at Spanien og Brasilien er mere tilbøjelige til at vinde end jeg gør, hvilket tyder på, at disse faktisk ikke er gode hold til at bakke (på disse odds). Dette kan skyldes, at de beskytter sig mod det marked, der er ivrig efter at være på disse hold – en lignende historie gælder for England.

Frankrig tilbyder på den anden side god værdi – modellen antyder, at sandsynligheden for sejr er næsten dobbelt så stor som sandsynligheden, som bookmakeren antager. Det vil være svært at tage for enhver Republik Irlands fan, hvis Frankrig skulle fortsætte med at vinde verdensmesterskabet, da de blev slået ud af verdensmesterskabet af Frankrig fremad Thierry Henrys 21.århundrede spin på ‘Guds hånd’ mål.

så her er det – jeg sætter min hals på linjen (i det mindste gør modellen) for at give dig nogle tip, der udelukkende er baseret på statistik (ikke min mening):

Spanien er turneringsfavoritterne, men tilbyder muligvis ikke værdi for pengene. (Den mere kloge læser vil genkende dette som lidt af en politikers svar: hvis Spanien vinder, kan jeg sige ‘Jeg fortalte dig, at de var favoritter’, mens hvis de taber, kan jeg sige ‘Jeg fortalte dig, at de ikke var en god indsats – der var en 88,4 procent sandsynlighed for, at de ikke vandt’!)

Frankrig at vinde er en god indsats.

jeg overtalte også Jarovek til at give mig et tip:

Brasilien ikke at vinde. (Typisk reserveret og forsigtig).

modelens forudsigelser for de sidste faser af turneringen er:

KF1: Holland vs Brasilien

KF2: Frankrig vs England

KF3: Tyskland vs Argentina

KF4: Italien vs Spanien

semifinale line up:

sf1: Brasilien vs Frankrig

SF2: Argentina vs Spanien

endelig:

Brasilien vs Spanien

temmelig indlysende virkelig! Det skal jeg sige, Selvom mit ry som statistiker hviler på, at disse tip er rimeligt gode, jeg vil heppe på mit hjemland England, uanset hvem oppositionen. Jeg venter i forventning til kick-off den 11. juni…

Leave a Reply