The science of predicting football results

Predicting football results è un’area di interesse accademico in rapida crescita. Gli economisti usano modelli per valutare l’efficienza dei mercati delle scommesse, i ricercatori operativi usano modelli per sperimentare i vari effetti della progettazione dei tornei e gli statistici mostrano la loro competenza con tecniche statistiche avanzate modellando la complessità dei dati del calcio.

Non è, ovviamente, solo accademici che stanno estraendo gli archivi dei punteggi di calcio. I bookmaker vivono e respirano i modelli di previsione del calcio, così come i flutterer più impegnati. Gli errori costano denaro e posti di lavoro, mentre trovare un piccolo vantaggio può portare grandi ricompense.

Mercati delle scommesse

Nel mondo accademico, l’applicazione più comune dei modelli di previsione del calcio è testare l’efficienza del mercato delle scommesse. L’ipotesi dei mercati efficienti (EMH) è una pietra angolare della teoria finanziaria e, nella sua forma più semplice, afferma che un investitore non dovrebbe essere in grado di ottenere costantemente rendimenti superiori alla media. Trovare un modello di previsione del calcio in grado di generare rendimenti migliori della media-o addirittura positivi-di solito si traduce in una pubblicazione per l’accademico come esempio di violazione dell’EMH, ma la natura proprietaria dei modelli significa che quelli pubblicati raramente (se mai) rappresentano i modelli migliori, e ancora meno spesso generano rendimenti positivi in modo coerente.

I modelli più performanti sono la riserva dell’industria del gioco d’azzardo. È fondamentale per un bookmaker impostare quote a un valore che rappresenti realisticamente le probabilità di una partita vinta, disegnata o persa. Se il bookmaker non riesce a farlo, rischierà enormi perdite.

Ad esempio, i bookmaker asiatici non penserebbero nulla di prendere una scommessa individuale di US US 200,000 – e ricevere regolarmente scommesse di$400,000 – e un tipico weekend nella Premier League inglese in genere attira turnover 500m fatturato in Asia. Con tali maree di denaro scommesso, non è sorprendente che i bookmaker fanno uso di ogni possibile strumento a loro disposizione – uno di loro è modelli matematici.

Un modello matematico non viene in genere utilizzato da solo per impostare le quote. Un esperto odds-setter è impiegato per regolare le quote generate dal modello dato qualsiasi informazione aggiuntiva. Ad esempio, un modello tipico potrebbe prendere in considerazione solo i risultati recenti di una squadra e la posizione di ciascuna squadra nel campionato. Il odds-setter regolerà quindi queste quote previste per tenere conto, ad esempio, di un infortunio a un giocatore stellare.

Dall’altra parte del mercato, sono gli scommettitori. Le aziende specializzate offrono servizi per consigliare ai clienti quali scommesse fare. Maciej Jarowek è un consulente di scommesse per AsianConnect88.com, un broker di scommesse. Gli ho chiesto i suoi pensieri sull’uso della matematica nel settore. Come fa un bookmaker, usa un modello per dargli un punto di partenza e poi regola le quote come meglio crede.

Jarowek è un esperto di calcio polacco, e quando trova una discrepanza tra le sue quote e quelle dei bookmaker, può scegliere se la discrepanza è sufficiente per consigliare di piazzare una scommessa. Dice che il più grande vantaggio che i giocatori professionisti hanno sul bookmaker è che non devono scommettere su ogni partita – possono scegliere e scegliere. Dato che Jarowek è uno dei tanti giocatori professionisti che lavorano per AsianConnect88.com, e che ci sono numerose tali agenzie in funzione, sembra che ci sia considerevole spazio per battere il mercato.

Rispetto ad altri sport, il risultato di una partita di calcio è relativamente difficile da prevedere. Alcuni accademici ritengono che questa sia una delle fonti della popolarità del calcio – i fan non conoscono mai veramente l’esito di una partita prima che sia successo, rendendo guardare la partita una proposta eccitante.

Gli esperti fanno carriere basate su questa incertezza del risultato e trascorrono infinite ore a contemplare ogni possibile evento in una partita. Ci sono innumerevoli sconvolgimenti nel calcio nazionale ogni fine settimana, e la Coppa del Mondo getta la sua giusta quota di omicidi giganti. Data questa intrinseca imprevedibilità, come possiamo fare previsioni?

Esistono due approcci generali per modellare i risultati delle partite di calcio. In primo luogo, si può prevedere il risultato direttamente – se il risultato sarà una vittoria, un pareggio o una perdita. In questo caso, il risultato (vittoria, perdita, pareggio) è una variabile ordinale (una vittoria è meglio di un pareggio che è meglio di una perdita). Il modello di scelta qui è una regressione ordinale, come probit ordinato. L’output di tale modello è la probabilità di ciascun risultato, in modo che per una partita imminente si possa utilizzare il modello per calcolare la probabilità di vittoria, pareggio o perdita.

Il secondo approccio per modellare il risultato di una partita è un metodo indiretto in cui l’analista modella il punteggio esatto del gioco. In questo caso, l’analista stima la probabilità di ogni possibile numero di gol segnati da ciascuna squadra. Si può quindi dedurre la probabilità che una squadra vinca, pareggi o perda la partita sommando le probabilità di punteggio esatte pertinenti.

Un probit ordinato

Le prove suggeriscono pochissime differenze nelle prestazioni di ciascun approccio nella modellazione del risultato della partita. Qui, costruisco un modello del primo tipo, vale a dire un modello “probit ordinato”.

Il modello probit ordinato può essere utilizzato per stimare la probabilità dei tre risultati di una partita. Per fare ciò, utilizza le informazioni su ogni squadra. Ad esempio, sembra ragionevole che una squadra che ha vinto le ultime tre partite abbia una probabilità maggiore di vincere la sua prossima partita rispetto a una squadra che ha perso le ultime tre partite. Allo stesso modo, una squadra che è classificata più in alto rispetto all’opposizione ha una maggiore probabilità di vincere la partita rispetto alla squadra di rango inferiore. La quantità di probabilità di vincita cambia, dato che queste pepite di informazioni sono governate dai parametri del modello. In un modello statistico, i parametri sono stimati per spiegare al meglio ciò che è accaduto in passato.

Il mio modello qui si basa su quasi 9.000 risultati di partite internazionali in un periodo di otto anni. Le informazioni e gli effetti sulla probabilità che una squadra vinca una partita sono:

  • Venue-casa / via o neutro. Una squadra ha maggiori probabilità di vincere se a casa;
  • Distanza dalla capitale alla posizione del gioco. Una squadra ha maggiori probabilità di vincere più breve è la distanza percorsa (dai tifosi e dalla squadra stessa);
  • Differenza nella classifica mondiale tra le squadre. Una squadra più alta classifica è più probabilità di vincere;
  • Cambiamento nella classifica mondiale per ogni squadra durante i 12 mesi precedenti. Una squadra in miglioramento ha maggiori probabilità di vincere;
  • Tipo di partita, vale a dire: torneo maggiore (Coppa del Mondo o campionato della confederazione), torneo minore (altro sanzionato dalla FIFA), qualificazione o amichevole. Le squadre migliori prendono più sul serio i tornei principali;
  • Risultati delle partite passate. Per ogni partita, uso gli otto risultati precedenti per ogni squadra (in media una squadra nazionale gioca otto partite in un periodo di 12 mesi). Oltre ai risultati, conosco la classifica mondiale per ciascuna delle otto squadre avversarie al momento della partita.

L’utilizzo delle informazioni dei risultati passati richiede un piccolo pensiero in più. Una vittoria per 1-0 per una squadra classificata 200 contro una squadra classificata 4 rappresenta chiaramente una prestazione migliore rispetto a se le squadre fossero classificate rispettivamente 200 e 198. Di conseguenza, i risultati passati dovrebbero essere ponderati rispetto al risultato e rispetto alla forza dell’opposizione. Una metrica performance passata (ppm), che cattura questa relazione, è data dalla formula in alto (a sinistra) di questa pagina.

Questo ppm va da ‘-1’ a ‘1’, dove ‘-1’ rappresenta il peggior risultato possibile – la squadra in classifica che perde contro la squadra in classifica inferiore-e ‘1’ rappresenta la squadra in classifica peggiore che batte la squadra in classifica migliore. Si noti che 204 è il valore massimo della classifica di qualsiasi squadra durante il periodo in esame. La metrica delle prestazioni passate è tracciata in alto (a destra) di questa pagina.

(Sshhh – Prevedo il vincitore della Coppa del Mondo)

Il modello probit ordinato sopra descritto può essere utilizzato per stimare la probabilità di ciascun risultato (vittoria/pareggio/perdita) in una partita. Un bookmaker potrebbe usare queste probabilità per aiutare a informare gli scommettitori, mentre uno scommettitore potrebbe usarle per valutare se una scommessa deve essere piazzata.

Per prevedere il vincitore della Coppa del Mondo 2010, è necessario prevedere il vincitore di una serie di partite. Per fare questo, io uso la simulazione, e hanno scritto il codice che utilizza il modello montato di risultato della partita per simulare l’intero torneo. La Coppa del Mondo inizia con otto mini-campionati (gruppi) di quattro squadre, giocando l’un l’altro una volta. La prima e la seconda classificata di ogni gruppo passano poi alla fase a eliminazione diretta. Questa struttura del torneo influisce sulla probabilità che una squadra vinca.

Ad esempio, nella prossima Coppa del Mondo, le squadre più probabili a progredire dal Gruppo G sono Brasile e Portogallo. La squadra più probabile a vincere il Gruppo H è la Spagna. Le vincitrici (seconde classificate) del Gruppo H incontrano poi le seconde (vincenti) del gruppo G nel primo turno eliminatorio. Così la Spagna sono quasi garantito una partita difficile nel primo turno a eliminazione diretta. Confrontalo con i favoriti del Gruppo A, la Francia, che molto probabilmente affronterà il secondo posto del Gruppo B. Dato che i favoriti del Gruppo B, l’Argentina, sono molto più forti delle altre squadre del gruppo, la Francia (e l’Argentina) probabilmente avranno partite meno difficili nella prima fase a eliminazione diretta rispetto a Spagna, Brasile e Portogallo.

È chiaro quindi, che predire i vincitori del torneo complessivo non è solo un caso di scegliere la squadra migliore. Bisogna prendere in considerazione l’effetto della struttura del torneo. I risultati di 100.000 tornei simulati sono mostrati nella tabella, a sinistra.

Nonostante i loro pareggi apparentemente difficili, Spagna e Brasile sono ancora primi e secondi per numero di vittorie. Il numero di vittorie può essere facilmente convertito in una probabilità prevista di vincere il torneo per ogni squadra che è mostrato nella terza colonna della tabella (a sinistra).

È interessante confrontare le probabilità di vittoria previste con le classifiche mondiali FIFA. Francia sono grandi motori verso l’alto – forse a causa del loro pareggio più facile, mentre il Portogallo cadere al nono favoriti, pur essendo la squadra terza in classifica nel mondo.

Dato che l’uso più frequente di tale modello è quello di confrontare le probabilità con quelle dei bookmaker, la quinta e la sesta colonna della tabella forniscono le probabilità e le probabilità implicite da Bet365, come alla data in cui ho fatto le mie previsioni (14 maggio 2010). Devo ammettere, quando ho visto le somiglianze, mi ha fatto piacere-conferma il modello e l’esercizio di simulazione danno risultati sensibili. Tuttavia, un’ispezione più attenta rivela alcune discrepanze. Disclaimer tempo: Si prega di notare che non suggerisco di utilizzare queste quote per piazzare una scommessa. I bookies sanno davvero quello che stanno facendo e incorporano molte più informazioni che ho usato per informare le loro probabilità – sono anche pagati molto più di me per fare questo genere di cose!

Sembra che i bookmaker pensino che Spagna e Brasile abbiano più probabilità di vincere di me, suggerendo che queste non sono in realtà buone squadre da sostenere (a queste quote). Questo potrebbe essere perché si stanno proteggendo contro il mercato che è desideroso di essere in queste squadre – una storia simile è vera per l’Inghilterra.

La Francia, d’altra parte, offre un buon valore – il modello suggerisce che la probabilità di vittoria è quasi il doppio della probabilità assunta dal bookmaker. Sarà difficile da prendere per qualsiasi fan della Repubblica d’Irlanda, se la Francia dovesse continuare a vincere la Coppa del Mondo, dato che sono stati eliminati dalla Coppa del Mondo dall’attaccante francese Thierry Henry del 21 ° secolo sull’obiettivo “mano di Dio”.

Così eccolo qui-Ho messo il mio collo sulla linea (almeno il modello fa) per darvi alcuni suggerimenti, basati esclusivamente sulle statistiche (non la mia opinione):

La Spagna sono i favoriti del torneo, ma non può offrire rapporto qualità-prezzo. (Il lettore più astuto riconoscerà questo come un po ‘la risposta di un politico: se la Spagna vince, posso dire ‘Ti ho detto che erano favoriti’, mentre se perdono, posso dire ‘Ti ho detto che non erano una buona scommessa – c’era una probabilità 88.4 per cento di loro non vincere’!)

Francia per vincere è una buona scommessa.

Ho anche convinto Jarowek a darmi un consiglio:

Brasile non vincere. (Tipicamente riservato e cauto).

Le previsioni del modello per le ultime fasi del torneo sono:

da qf1: Olanda vs Brasile

QF2: Francia vs Inghilterra

QF3: Germania vs Argentina

QF4: Italia vs Spagna

Semi-finale di line up:

SF1: Brasile vs Francia

SF2: Argentina vs Spagna

Finale:

Brasile vs Spagna

Abbastanza ovvio davvero! Devo dire che, anche se la mia reputazione di statistico si basa su questi suggerimenti di essere ragionevolmente buono, sarò tifo per la mia nativa Inghilterra, non importa chi l’opposizione. Aspetto in anticipo per il calcio d’inizio su 11 giugno…

Leave a Reply