vitenskapen om å forutsi fotballresultater

Forutsi fotballresultater Er et raskt voksende område av akademisk interesse. Økonomer bruker modeller for å vurdere effektiviteten av spillmarkeder, operative forskere bruker modeller for å eksperimentere med de ulike effektene av turneringsdesign, og statistikere viser sine ferdigheter med avanserte statistiske teknikker ved å modellere vanskelighetene med fotballdata.

det er selvfølgelig ikke bare akademikere som utvinner arkivene til fotballresultater. Bookmakere lever og puster fotball prediksjon modeller-som gjør de mer engasjerte flutterers. Feil koster penger og jobber, mens å finne en liten fordel kan bære store belønninger.

Tippemarkeder

i akademia er den vanligste bruken av fotballprognosemodeller å teste effektiviteten i tippemarkedet. Hypotesen Om Effektive Markeder (Emh) er en hjørnestein i økonomisk teori, og i sin enkleste form sier at en investor ikke skal kunne konsekvent oppnå avkastning over gjennomsnittet. Å finne en prognosemodell for fotball som kan generere bedre enn gjennomsnittlig eller til og med positiv avkastning, resulterer vanligvis i en publikasjon for den akademiske som et eksempel på brudd PÅ EMH, men modellens proprietære natur betyr at de publiserte sjelden (hvis noen gang) representerer de aller beste modellene, og enda mindre ofte genererer positiv avkastning konsekvent.

de beste modellene er reserven til gamblingindustrien. Det er viktig for en bookmaker å sette odds til en verdi som realistisk representerer sannsynlighetene for at en kamp blir vunnet, trukket eller tapt. Hvis bookmakeren ikke gjør dette, vil det risikere store tap.

For Eksempel Vil Asiatiske bookmakere ikke tro noe om å ta en individuell innsats PÅ US$200 000-og regelmessig motta spill på $400 000-og en typisk helg i den engelske Premier League tiltrekker vanligvis $ 500m omsetning i Asia. Med slike tidevann av kontanter blir satset, er det ikke overraskende at bookmakere benytter seg av alle mulige verktøy til disposisjon – en av dem er matematiske modeller.

en matematisk modell brukes vanligvis ikke alene for å sette odds. En ekspert odds-setter er ansatt for å justere modellgenererte odds gitt ekstra informasjon. For eksempel kan en typisk modell ta hensyn til nylige resultater av et lag og hvert lags posisjon i ligaen bare. Oddssetteren vil da justere disse forutsagte oddsene for å ta hensyn til, si, en skade på en stjernespiller.

på den andre siden av markedet er spillerne. Spesialiserte selskaper tilbyr tjenester for å gi råd til kunder hvilke spill å gjøre. Maciej Jarowek er en spillkonsulent for AsianConnect88.com, en betting megler. Jeg spurte ham om hans tanker om bruk av matematikk i bransjen. Som en bookmaker gjør, bruker han en modell for å gi ham et utgangspunkt og justerer deretter oddsene som han ser passende.

Jarowek er ekspert på polsk fotball, og når Han finner et avvik mellom oddsene hans og bookmakerne, kan Han velge om avviket er nok til å anbefale å plassere en innsats. Han sier at den største fordelen profesjonelle spillere har over bookmakeren er at de ikke trenger å satse på hver kamp – de kan velge og vrake. Gitt At Jarowek er en av mange profesjonelle gamblere som jobber for AsianConnect88.com, og at det er mange slike byråer i drift, ser det ut til at det er betydelig mulighet for å slå markedet.

Sammenlignet med andre idretter, er resultatet av en fotballkamp relativt vanskelig å forutsi. Noen akademikere mener dette er en av kildene til populariteten til fotball-fans vet aldri utfallet av en kamp før det har skjedd å se på spillet et spennende forslag.

Forståsegpåere gjøre karrierer basert på denne usikkerheten utfall og tilbringe endeløse timer vurderer hver mulig hendelse i en kamp. Det er utallige opprør i innenlands fotball hver helg, Og Vm kaster opp sin rettferdige andel av gigantiske drap. Gitt denne iboende uforutsigbarheten, hvordan kan vi gjøre spådommer?

det er to brede tilnærminger til modellering fotball kamp utfall. Først kan man forutsi resultatet direkte-om resultatet blir en seier, uavgjort eller tap. I dette tilfellet er utfallet (seier, tap, uavgjort) en ordinær variabel (en seier er bedre enn en uavgjort som er bedre enn et tap). Modellen av valget her er en ordinær regresjon en, for eksempel bestilt probit. Resultatet fra en slik modell er sannsynligheten for hvert utfall, slik at man for en kommende kamp kan bruke modellen til å beregne sannsynligheten for en seier, uavgjort eller tap.

den andre tilnærmingen for å modellere et kampresultat er en indirekte metode der analytikeren modellerer det nøyaktige resultatet av spillet. I dette tilfellet estimerer analytikeren sannsynligheten for hvert mulig antall mål scoret av hvert lag. Man kan deretter utlede sannsynligheten for at et lag vinner, tegner eller taper kampen ved å summere de relevante eksakte poengsannsynlighetene.

en bestilt probit

Bevis tyder på svært liten forskjell i ytelsen til hver tilnærming i modellering kamp utfall. Her bygger jeg en modell av den første typen, nemlig en ‘bestilt probit’ – modell.

den bestilte probit-modellen kan brukes til å estimere sannsynligheten for de tre utfallene i en kamp. For å gjøre dette bruker den informasjon om hvert lag. For eksempel virker det rimelig at et lag som har vunnet sine tre siste kamper har en høyere sannsynlighet for å vinne sin neste kamp enn et lag som har mistet sine tre siste kamper. På samme måte har et lag som er rangert høyere enn opposisjonen en høyere sannsynlighet for å vinne kampen enn det lavere rangerte laget. Mengden av vinnersannsynligheten endres, gitt disse nuggets av informasjon styres av modellparametrene. I en statistisk modell estimeres parametrene for å best forklare hva som har skjedd tidligere.

min modell her er basert på nesten 9000 internasjonale kampresultater over en åtteårsperiode. Informasjonen og effektene på sannsynligheten for at et lag vinner en kamp er:

  • Sted-hjemme / borte eller nøytral. Et lag er mer sannsynlig å vinne hvis hjemme;
  • Avstand fra hovedstaden til spillplassering. Et lag er mer sannsynlig å vinne jo kortere distansen (av fans og laget selv);
  • Forskjell i verdensrangering mellom lagene. Et høyere rangert lag er mer sannsynlig å vinne;
  • Endring i verdensrankingen for hvert lag i løpet av de siste 12 månedene. Et bedre lag er mer sannsynlig å vinne;
  • type kamp, nemlig: major tournament (World Cup eller confederation championship), minor tournament (ANNEN FIFA – sanksjonert en), qualifier eller vennlig. Bedre lag tar større turneringer mer seriøst;
  • Tidligere kampresultater. For hvert spill bruker jeg de forrige åtte resultatene for hvert lag (i gjennomsnitt spiller et landslag åtte kamper i en 12-måneders periode). I tillegg til resultatene kjenner jeg verdensrankingen for hvert av de åtte opposisjonslagene på tidspunktet for spillet.

Bruk av informasjon om tidligere resultater trenger litt ekstra tanke. En 1-0 seier for et lag rangert 200 mot et lag rangert 4 klart representerer en bedre ytelse enn om lagene ble rangert 200 og 198 henholdsvis. Som en konsekvens bør de siste resultatene veies i forhold til resultatet og i forhold til motstandens styrke. En ppm (ppm) som fanger opp denne relasjonen, er gitt av formelen øverst (til venstre) på denne siden.

denne ppm går fra ‘ -1 ‘ til ‘1’, hvor ‘ -1 ‘representerer det verste resultatet mulig – det topprangerte laget taper til det nederste rangerte laget-og’ 1 ‘ representerer det dårligst rangerte laget som slår det best rangerte laget. Merk at 204 er maksimumsverdien av rangeringen av et lag i den aktuelle perioden. Den tidligere ytelsesberegningen tegnes inn øverst (til høyre) på denne siden.

(Sshhh – jeg tipper vm-vinneren)

den bestilte probit-modellen beskrevet ovenfor kan brukes til å estimere sannsynligheten for hvert utfall (seier/uavgjort/tap) i en kamp. En bookmaker kan bruke disse sannsynlighetene til å informere oddssettere, mens en spiller kan bruke dem til å vurdere om et spill skal plasseres.

for å forutsi vinneren Av Vm 2010, må man forutsi vinneren av en serie kamper. For å gjøre dette, jeg bruker simulering, og har skrevet kode som bruker montert modell av kamp utfall for å simulere hele turneringen. Vm starter med åtte mini-ligaer (grupper) av fire lag, som spiller hverandre en gang. De første-og andreplasserte lagene i hver gruppe går deretter videre til knockout-stadiene. Denne turneringsstrukturen påvirker sannsynligheten for at et lag vinner.

For eksempel, I Det kommende Vm, Er De mest sannsynlige lagene Til å gå videre Fra Gruppe G Brasil og Portugal. Det mest sannsynlige laget til Å vinne Gruppe H Er Spania. Vinnerne (løpere opp) av Gruppe H møter deretter løpere opp (vinnere) av gruppe G i den første knockout-runden. Dermed Er Spania nesten garantert en vanskelig kamp i første knockout runde. Gi Gruppe b favoritter, Argentina, er mye sterkere enn de andre lagene i gruppen, Frankrike (Og Argentina) vil trolig ha mindre vanskelige kamper i første knockout-scenen enn Spania, Brasil og Portugal.

det er klart da, at forutsi vinnerne av turneringen samlet er ikke bare et tilfelle av å plukke det beste laget. Man må ta hensyn til effekten av turneringsstrukturen. Resultatene av 100.000 simulerte turneringer vises i tabellen, venstre.

Til tross for deres tilsynelatende vanskelige uavgjorte, Er Spania og Brasil fortsatt første og andre når det gjelder antall seire. Antall seire kan enkelt konverteres til en spådd sannsynlighet for å vinne turneringen for hvert lag som vises i den tredje kolonnen i tabellen (venstre).

det er interessant å sammenligne de forventede vinnersannsynlighetene med FIFA World Rankings. Frankrike er store movers oppover-muligens på grunn av deres lettere uavgjort, Mens Portugal faller til niende favoritter, til tross for å være det tredje rangerte laget i verden.

Gitt at den hyppigste bruken av en slik modell er å sammenligne sannsynlighetene med de av bookmakere, den femte og sjette kolonne av tabellen gir odds og implisitte sannsynligheter Fra Bet365, som på datoen jeg gjorde mine spådommer (14 Mai 2010). Jeg må innrømme, da jeg så likhetene, var jeg fornøyd-det bekrefter modellen og simuleringsøvelsen gir fornuftige resultater. Men nærmere inspeksjon avslører noen uoverensstemmelser. Ansvarsfraskrivelse tid: Vær oppmerksom på at jeg ikke foreslår at du bruker disse oddsene for å plassere en innsats. Bookies virkelig vet hva de gjør og innlemme langt mer informasjon jeg har brukt til å informere sine odds – de er også betalt mye mer enn jeg er for å gjøre denne typen ting!

det ser ut til at bookmakerne tror At Spania og Brasil er mer sannsynlig å vinne enn jeg gjør, noe som tyder på at disse faktisk ikke er gode lag å sikkerhetskopiere (ved disse oddsene). Dette kan være fordi De beskytter seg mot markedet som er opptatt av å være på disse lagene – en lignende historie er sant For England.

Frankrike, derimot, tilbyr god verdi – modellen antyder at sannsynligheten for seier er nesten dobbelt så sannsynlig som bookmakeren antar. Det vil være vanskelig å ta for Noen Republikken irland fan, Hvis Frankrike skulle gå på å vinne Vm, gitt at De ble slått ut Av Vm Av Frankrike fremover thierry Henrys 21. århundre spinn på ‘hand Of God’ mål.

så her er det – jeg legger nakken på linjen (minst modellen gjør) for å gi deg noen tips, basert utelukkende på statistikk (ikke min mening):

Spania er turneringsfavorittene, men kan ikke tilby verdi for pengene. (Jo mer slu leseren vil gjenkjenne dette som litt av en politikers svar: Hvis Spania vinner, kan Jeg si ‘jeg fortalte deg at de var favoritter’, mens hvis de mister, kan jeg si ‘jeg fortalte deg at de ikke var en god innsats – det var en 88,4 prosent sannsynlighet for at De ikke vinner’!)

Frankrike å vinne er en god innsats.

jeg overtalte Også Jarowek til å gi meg et tips:

Brasil ikke å vinne. (Vanligvis reservert og forsiktig).

modellens spådommer for de siste stadiene av turneringen er:

QF1: Holland vs Brasil

QF2: Frankrike vs England

QF3: Tyskland vs Argentina

QF4: Italia vs Spania

Semifinalen line up:

sf1: brasil vs frankrike

sf2: argentina vs spania

endelig:

brasil vs spania

ganske åpenbart virkelig! Jeg burde si at selv om mitt rykte som statistiker hviler på at disse tipsene er rimelig gode, vil jeg heie På mitt hjemland England, uansett hvem opposisjonen. Jeg venter i påvente av kick-off på 11 juni…

Leave a Reply