Articles / août 24, 2021

La science de la prédiction des résultats de football

La prédiction des résultats de football est un domaine d’intérêt académique en pleine croissance. Les économistes utilisent des modèles pour évaluer l’efficacité des marchés de paris, les chercheurs opérationnels utilisent des modèles pour expérimenter les divers effets de la conception des tournois, et les statisticiens démontrent leur maîtrise des techniques statistiques avancées en modélisant les subtilités des données sur le football.

Ce ne sont bien sûr pas seulement les universitaires qui exploitent les archives des scores de football. Les bookmakers vivent et respirent les modèles de prédiction du football – tout comme les joueurs les plus engagés. Les erreurs coûtent de l’argent et des emplois, tandis que trouver un petit avantage peut rapporter de grandes récompenses.

Marchés des paris

Dans le monde universitaire, l’application la plus courante des modèles de prévision du football consiste à tester l’efficacité du marché des paris. L’hypothèse des marchés efficaces (EMH) est une pierre angulaire de la théorie financière et, dans sa forme la plus simple, stipule qu’un investisseur ne devrait pas être en mesure d’obtenir systématiquement des rendements supérieurs à la moyenne. Trouver un modèle de prévision du football capable de générer des rendements meilleurs que la moyenne – voire positifs – donne généralement lieu à une publication pour l’universitaire comme exemple de violation de l’EMH, mais la nature exclusive des modèles signifie que les modèles publiés représentent rarement (voire jamais) les meilleurs modèles, et encore moins souvent génèrent des rendements positifs de manière cohérente.

Les modèles les plus performants sont la réserve de l’industrie du jeu. Il est primordial pour un bookmaker de fixer des cotes à une valeur qui représente de manière réaliste les probabilités d’un match gagné, nul ou perdu. Si le bookmaker ne le fait pas, il risque d’énormes pertes.

Par exemple, les bookmakers asiatiques ne penseraient à rien de prendre un pari individuel de 200 000 US US – et reçoivent régulièrement des paris de 400 000 $ – et un week-end typique en Premier League anglaise attire généralement un chiffre d’affaires de 500 millions de dollars en Asie. Avec de telles marées d’argent mises, il n’est pas surprenant que les bookmakers utilisent tous les outils possibles à leur disposition – l’un d’entre eux étant des modèles mathématiques.

Un modèle mathématique n’est généralement pas utilisé seul pour établir des cotes. Un expert en odds-setter est employé pour ajuster les cotes générées par le modèle en fonction de toute information supplémentaire. Par exemple, un modèle type peut prendre en compte les résultats récents d’une équipe et la position de chaque équipe dans la ligue uniquement. Le poseur de cotes ajustera ensuite ces cotes prévues pour tenir compte, par exemple, d’une blessure à un joueur étoile.

De l’autre côté du marché, se trouvent les parieurs. Des sociétés spécialisées proposent des services pour conseiller les clients sur les paris à faire. Maciej Jarowek est consultant en paris pour AsianConnect88.com , un courtier de paris. Je lui ai demandé ses réflexions sur l’utilisation des mathématiques dans l’industrie. Comme le fait un bookmaker, il utilise un modèle pour lui donner un point de départ, puis ajuste les cotes comme bon lui semble.

Jarowek est un expert du football polonais, et lorsqu’il constate un écart entre ses cotes et celles des bookmakers, il peut choisir si l’écart est suffisant pour conseiller de placer un pari. Il dit que le plus grand avantage des joueurs professionnels par rapport au bookmaker est qu’ils n’ont pas à parier sur chaque match – ils peuvent choisir. Étant donné que Jarowek est l’un des nombreux joueurs professionnels travaillant pour AsianConnect88.com , et qu’il existe de nombreuses agences de ce type en activité, il semble qu’il existe une marge de manœuvre considérable pour battre le marché.

Comparé à d’autres sports, le résultat d’un match de football est relativement difficile à prédire. Certains universitaires pensent que c’est l’une des sources de la popularité du football – les fans ne connaissent jamais vraiment le résultat d’un match avant qu’il ne se soit produit, ce qui rend le visionnage du match une proposition passionnante.

Les experts font carrière en fonction de cette incertitude du résultat et passent des heures interminables à contempler chaque événement possible dans un match. Il y a d’innombrables bouleversements dans le football national chaque week-end, et la Coupe du Monde jette sa juste part de meurtres de géants. Compte tenu de cette imprévisibilité inhérente, comment pouvons-nous faire des prédictions?

Il existe deux approches générales pour modéliser les résultats des matchs de football. Tout d’abord, on peut prédire directement le résultat – que le résultat soit une victoire, un match nul ou une défaite. Dans ce cas, le résultat (victoire, défaite, match nul) est une variable ordinale (une victoire vaut mieux qu’un match nul qui vaut mieux qu’une défaite). Le modèle de choix ici est un modèle de régression ordinale, tel que probit ordonné. La sortie d’un tel modèle est la probabilité de chaque résultat, de sorte que pour un match à venir, on peut utiliser le modèle pour calculer la probabilité d’une victoire, d’un match nul ou d’une défaite.

La deuxième approche pour modéliser le résultat d’un match est une méthode indirecte où l’analyste modélise le score exact du match. Dans ce cas, l’analyste estime la probabilité de chaque nombre possible de buts marqués par chaque équipe. On peut alors déduire la probabilité qu’une équipe gagne, fait match nul ou perd le match en additionnant les probabilités de score exactes pertinentes.

Un probit ordonné

Suggère très peu de différence de performance de chaque approche dans la modélisation des résultats de correspondance. Ici, je construis un modèle du premier type, à savoir un modèle “probit ordonné”.

Le modèle probit ordonné peut être utilisé pour estimer la probabilité des trois résultats d’une correspondance. Pour ce faire, il utilise des informations sur chaque équipe. Par exemple, il semble raisonnable qu’une équipe qui a remporté ses trois derniers matches ait une probabilité plus élevée de gagner son prochain match qu’une équipe qui a perdu ses trois derniers matches. De même, une équipe mieux classée que l’adversaire a plus de chances de gagner le match que l’équipe moins bien classée. Le montant de la probabilité de victoire change, étant donné que ces pépites d’informations sont régies par les paramètres du modèle. Dans un modèle statistique, les paramètres sont estimés pour expliquer au mieux ce qui s’est passé dans le passé.

Mon modèle ici est basé sur près de 9 000 résultats de matchs internationaux sur une période de huit ans. Les informations et les effets sur la probabilité qu’une équipe gagne un match sont:

Lieu – domicile / extérieur ou neutre. Une équipe a plus de chances de gagner si elle est à domicile;
Distance entre la capitale et le lieu du match. Une équipe a plus de chances de gagner plus la distance parcourue est courte (par les fans et l’équipe elle-même);
Différence de classement mondial entre les équipes. Une équipe mieux classée a plus de chances de gagner;
Changement dans le classement mondial de chaque équipe au cours des 12 mois précédents. Une équipe qui s’améliore a plus de chances de gagner;
Type de match, à savoir: tournoi majeur (Coupe du Monde ou championnat de la confédération), tournoi mineur (autre tournoi sanctionné par la FIFA), tournoi qualificatif ou amical. Les meilleures équipes prennent les tournois majeurs plus au sérieux ;
Résultats des matchs précédents. Pour chaque match, j’utilise les huit résultats précédents pour chaque équipe (en moyenne, une équipe nationale joue huit matches sur une période de 12 mois). En plus des résultats, je connais le classement mondial de chacune des huit équipes adverses au moment du match.

L’utilisation des informations des résultats passés nécessite un peu plus de réflexion. Une victoire de 1-0 pour une équipe classée 200 contre une équipe classée 4 représente clairement une meilleure performance que si les équipes étaient classées 200 et 198 respectivement. En conséquence, les résultats passés doivent être pondérés par rapport au résultat et par rapport à la force de l’opposition. Une mesure des performances passées (ppm), qui capture cette relation, est donnée par la formule en haut (à gauche) de cette page.

Ce ppm passe de ‘-1’ à ‘1’, où ‘-1’ représente le pire résultat possible – l’équipe la mieux classée perdant contre l’équipe la moins bien classée – et ‘1’ représente l’équipe la moins bien classée battant l’équipe la mieux classée. Notez que 204 est la valeur maximale du classement de toute équipe pendant la période considérée. La mesure des performances passées est tracée en haut (à droite) de cette page.

(Sshhh – Je prédis le vainqueur de la Coupe du Monde)

Le modèle probit ordonné décrit ci-dessus peut être utilisé pour estimer la probabilité de chaque résultat (victoire / match nul / défaite) dans un match. Un bookmaker pourrait utiliser ces probabilités pour aider à informer les parieurs, tandis qu’un parieur pourrait les utiliser pour évaluer si un pari doit être placé.

Pour prédire le vainqueur de la Coupe du Monde 2010, il faut prédire le vainqueur d’une série de matches. Pour ce faire, j’utilise la simulation et j’ai écrit du code qui utilise le modèle ajusté du résultat du match pour simuler l’ensemble du tournoi. La Coupe du Monde commence avec huit mini-ligues (groupes) de quatre équipes, qui s’affrontent une fois. Les équipes classées première et deuxième de chaque groupe se qualifient ensuite pour les huitièmes de finale. Cette structure de tournoi affecte la probabilité qu’une équipe gagne.

Par exemple, lors de la prochaine Coupe du Monde, les équipes les plus susceptibles de sortir du Groupe G sont le Brésil et le Portugal. L’équipe la plus susceptible de remporter le groupe H est l’Espagne. Les vainqueurs (finalistes) du groupe H rencontrent ensuite les finalistes (vainqueurs) du groupe G au premier tour à élimination directe. Ainsi, l’Espagne est presque assurée d’un match difficile au premier tour à élimination directe. Comparez cela aux favoris du Groupe A, la France, qui affrontera probablement le deuxième du Groupe B. Étant donné que les favoris du Groupe B, l’Argentine, sont beaucoup plus forts que les autres équipes du groupe, la France (et l’Argentine) auront probablement des matches moins difficiles dans la première phase à élimination directe que l’Espagne, le Brésil et le Portugal.

Il est alors clair que prédire les gagnants du tournoi dans son ensemble n’est pas seulement un cas de choisir la meilleure équipe. Il faut prendre en compte l’effet de la structure du tournoi. Les résultats de 100 000 tournois simulés sont affichés dans le tableau de gauche.

Malgré leurs tirages apparemment difficiles, l’Espagne et le Brésil sont toujours premiers et deuxièmes en termes de nombre de victoires. Le nombre de victoires peut facilement être converti en une probabilité prédite de gagner le tournoi pour chaque équipe qui est indiquée dans la troisième colonne du tableau (à gauche).

Il est intéressant de comparer les probabilités de victoire prévues avec le Classement mondial de la FIFA. La France monte en puissance – peut-être en raison de son tirage au sort plus facile, tandis que le Portugal tombe à la neuvième place des favoris, malgré son troisième rang mondial.

Étant donné que l’utilisation la plus fréquente d’un tel modèle est de comparer les probabilités avec celles des bookmakers, les cinquième et sixième colonnes du tableau donnent les cotes et probabilités implicites de Bet365, à la date à laquelle j’ai fait mes prédictions (14 mai 2010). Je dois admettre que lorsque j’ai vu les similitudes, j’étais content – cela confirme que le modèle et l’exercice de simulation donnent des résultats sensés. Cependant, un examen plus approfondi révèle certaines divergences. Avertissement: Veuillez noter que je ne vous suggère pas d’utiliser ces cotes pour placer un pari. Les bookmakers savent vraiment ce qu’ils font et intègrent beaucoup plus d’informations que j’ai utilisées pour informer leurs cotes – ils sont également payés beaucoup plus que moi pour faire ce genre de chose!

Il semble que les bookmakers pensent que l’Espagne et le Brésil sont plus susceptibles de gagner que moi, ce qui suggère que ce ne sont en fait pas de bonnes équipes à soutenir (à ces cotes). C’est peut-être parce qu’ils se protègent contre le marché qui souhaite faire partie de ces équipes – une histoire similaire est vraie pour l’Angleterre.

La France, en revanche, offre une bonne valeur – le modèle suggère que la probabilité de victoire est presque deux fois supérieure à la probabilité supposée par le bookmaker. Ce sera difficile à prendre pour tout fan de la République d’Irlande, si la France devait remporter la Coupe du Monde, étant donné qu’elle a été éliminée de la Coupe du Monde par le tournant du 21e siècle de l’attaquant français Thierry Henry sur le but de la “main de Dieu”.

Alors voilà – j’ai mis mon cou sur la ligne (du moins le modèle le fait) pour vous donner quelques conseils, basés uniquement sur des statistiques (pas mon avis):

L’Espagne est la favorite du tournoi, mais n’offre peut-être pas un rapport qualité-prix. (Le lecteur le plus avisé reconnaîtra que c’est un peu la réponse d’un politicien: si l’Espagne gagne, je peux dire “Je vous ai dit qu’elle était favorite”, tandis que s’ils perdent, je peux dire “Je vous ai dit qu’ils n’étaient pas un bon pari – il y avait une probabilité de 88,4% qu’ils ne gagnent pas”!)

La France pour gagner est un bon pari.

J’ai également persuadé Jarowek de me donner un pourboire:

Le Brésil ne doit pas gagner. (Généralement réservé et prudent).

Les prédictions du modèle pour les dernières étapes du tournoi sont les suivantes:

QF1: Hollande vs Brésil

QF2: France vs Angleterre

QF3: Allemagne vs Argentine

QF4: Italie vs Espagne

Demi-finale:

SF1: Brésil vs France

SF2: Argentine vs Espagne

Finale:

Brésil vs Espagne

Assez évident vraiment! Je dois dire que, bien que ma réputation de statisticien repose sur ces conseils raisonnablement bons, j’encouragerai mon Angleterre natale, quelle que soit l’opposition. J’attends avec impatience le coup d’envoi le 11 juin…

International Blogging Network