La ciencia de predecir resultados de fútbol

Predecir resultados de fútbol es un área de interés académico en rápido crecimiento. Los economistas usan modelos para evaluar la eficiencia de los mercados de apuestas, los investigadores operativos usan modelos para experimentar con los diversos efectos del diseño de torneos, y los estadísticos muestran su competencia con técnicas estadísticas avanzadas modelando las complejidades de los datos de fútbol.

Por supuesto, no son solo los académicos los que están extrayendo los archivos de los resultados de fútbol. Los corredores de apuestas viven y respiran los modelos de predicción de fútbol, al igual que los aleteadores más comprometidos. Los errores cuestan dinero y puestos de trabajo, mientras que encontrar una pequeña ventaja puede conllevar grandes recompensas.

Mercados de apuestas

En el mundo académico, la aplicación más común de los modelos de pronóstico de fútbol es probar la eficiencia del mercado de apuestas. La Hipótesis de Mercados Eficientes (HME) es una piedra angular de la teoría financiera y, en su forma más simple, afirma que un inversor no debería poder obtener rendimientos por encima de la media de manera consistente. Encontrar un modelo de pronóstico del fútbol que pueda generar rendimientos mejores que el promedio, o incluso positivos, generalmente resulta en una publicación para el académico como ejemplo de una violación de la HME, pero la naturaleza propietaria de los modelos significa que los publicados rara vez (si es que alguna vez) representan los mejores modelos, y aún menos a menudo generan rendimientos positivos de manera consistente.

Los modelos con mejor rendimiento son la reserva de la industria del juego. Es de suma importancia para una casa de apuestas establecer cuotas en un valor que represente de manera realista las probabilidades de que un partido se gane, se gane o se pierda. Si la casa de apuestas no lo hace, se arriesga a grandes pérdidas.

Por ejemplo, las casas de apuestas asiáticas no pensarían en aceptar una apuesta individual de 200.000$y recibirían regularmente apuestas de 400.000$, y un fin de semana típico en la Premier League inglesa suele atraer una facturación de 500 millones de Asia en Asia. Con tales mareas de dinero en efectivo que se apuesta, no es sorprendente que las casas de apuestas hagan uso de todas las herramientas posibles a su disposición, una de ellas son los modelos matemáticos.

Un modelo matemático no se utiliza normalmente por sí solo para establecer cuotas. Se emplea un fijador de cuotas experto para ajustar las cuotas generadas por el modelo dada cualquier información adicional. Por ejemplo, un modelo típico podría tener en cuenta los resultados recientes de un equipo y la posición de cada equipo en la liga solamente. El fijador de cuotas ajustará estas cuotas previstas para tener en cuenta, por ejemplo, una lesión de un jugador estrella.

En el otro lado del mercado, están los apostantes. Las empresas especializadas ofrecen servicios para asesorar a los clientes sobre las apuestas que deben realizar. Maciej Jarowek es asesor de apuestas para AsianConnect88.com, un corredor de apuestas. Le pregunté por sus ideas sobre el uso de las matemáticas en la industria. Como lo hace un corredor de apuestas, utiliza un modelo para darle un punto de partida y luego ajusta las probabilidades como lo considera conveniente.

Jarowek es un experto en fútbol polaco, y cuando encuentra una discrepancia entre sus cuotas y las de las casas de apuestas, puede elegir si la discrepancia es suficiente para aconsejar realizar una apuesta. Dice que la mayor ventaja que tienen los jugadores profesionales sobre la casa de apuestas es que no tienen que apostar en cada partido, pueden elegir y elegir. Dado que Jarowek es uno de los muchos jugadores profesionales que trabajan para AsianConnect88.com, y que hay numerosas agencias de este tipo en funcionamiento, parece que hay un margen considerable para vencer al mercado.

En comparación con otros deportes, el resultado de un partido de fútbol es relativamente difícil de predecir. Algunos académicos creen que esta es una de las fuentes de la popularidad del fútbol: los aficionados nunca saben realmente el resultado de un partido antes de que haya ocurrido, por lo que ver el partido es una propuesta emocionante.

Los expertos hacen carreras basadas en esta incertidumbre de resultados y pasan horas interminables contemplando todos y cada uno de los eventos posibles en un partido. Hay innumerables problemas en el fútbol doméstico cada fin de semana, y la Copa del Mundo lanza su parte justa de asesinatos de gigantes. Dada esta imprevisibilidad inherente, ¿cómo podemos hacer predicciones?

Hay dos enfoques amplios para modelar los resultados de los partidos de fútbol. En primer lugar, se puede predecir el resultado directamente, si el resultado será una victoria, un empate o una derrota. En este caso, el resultado (ganar, pérdida, dibujar) es una variable ordinal (una victoria, es mejor que un sorteo, que es mejor que una pérdida). El modelo de elección aquí es uno de regresión ordinal, como probit ordenado. El resultado de tal modelo es la probabilidad de cada resultado, de modo que para un partido próximo se puede usar el modelo para calcular la probabilidad de ganar, empatar o perder.

El segundo enfoque para modelar el resultado de un partido es un método indirecto en el que el analista modela la puntuación exacta del juego. En este caso, el analista estima la probabilidad de cada posible número de goles marcados por cada equipo. A continuación, se puede inferir la probabilidad de que un equipo gane, empate o pierda el partido sumando las probabilidades de puntuación exactas relevantes.

Un probit ordenado

La evidencia sugiere muy poca diferencia en el rendimiento de cada enfoque en el resultado del partido de modelado. Aquí, construyo un modelo del primer tipo, a saber, un modelo “probit ordenado”.

El modelo probit ordenado se puede utilizar para estimar la probabilidad de los tres resultados de una coincidencia. Para ello, utiliza información de cada equipo. Por ejemplo, parece razonable que un equipo que ha ganado sus últimos tres partidos tenga una mayor probabilidad de ganar su próximo partido que un equipo que ha perdido sus últimos tres partidos. De manera similar, un equipo que tiene una clasificación más alta que el rival tiene una mayor probabilidad de ganar el partido que el equipo de menor clasificación. La cantidad de probabilidades de ganar cambia, dado que estas pepitas de información se rigen por los parámetros del modelo. En un modelo estadístico, los parámetros se estiman para explicar mejor lo que ha sucedido en el pasado.

Mi modelo aquí se basa en casi 9000 resultados de partidos internacionales en un período de ocho años. La información y los efectos en la probabilidad de que un equipo gane un partido son:

  • Lugar: casa / fuera o neutral. Es más probable que un equipo gane si está en casa;
  • Distancia de la ciudad capital al lugar del juego. Es más probable que un equipo gane cuanto menor sea la distancia recorrida (por los aficionados y el propio equipo);
  • Diferencia en la clasificación mundial entre los equipos. Un equipo de mayor rango tiene más probabilidades de ganar;
  • Cambio en la clasificación mundial de cada equipo durante los 12 meses anteriores. Es más probable que un equipo en mejora gane;
  • Tipo de partido, a saber: torneo mayor (Copa del Mundo o campeonato de la confederación), torneo menor (otro sancionado por la FIFA), clasificatorio o amistoso. Los mejores equipos se toman los torneos más en serio;
  • Resultados de partidos anteriores. Para cada partido, utilizo los ocho resultados anteriores para cada equipo (en promedio, un equipo nacional juega ocho partidos en un período de 12 meses). Además de los resultados, conozco el ranking mundial de cada uno de los ocho equipos rivales en el momento del partido.

Usar la información de resultados pasados necesita un poco de reflexión adicional. Una victoria de 1-0 para un equipo clasificado 200 contra un equipo clasificado 4 claramente representa un mejor desempeño que si los equipos estuvieran clasificados 200 y 198 respectivamente. En consecuencia, los resultados pasados deben ponderarse en relación con el resultado y en relación con la fuerza de la oposición. Una métrica de rendimiento pasado (ppm), que captura esta relación, viene dada por la fórmula en la parte superior (izquierda) de esta página.

Este ppm va de ‘ -1 ‘ a ‘1’, donde’ -1 ‘representa el peor resultado posible – el equipo mejor clasificado pierde contra el equipo mejor clasificado-y’ 1 ‘ representa el equipo peor clasificado superando al mejor clasificado. Tenga en cuenta que 204 es el valor máximo de la clasificación de cualquier equipo durante el período considerado. La métrica de rendimiento anterior se representa en la parte superior (derecha) de esta página.

(Sshhh-Predigo el ganador de la Copa del Mundo)

El modelo ordenado de probit descrito anteriormente se puede usar para estimar la probabilidad de cada resultado (victoria/empate/derrota) en un partido. Una casa de apuestas puede usar estas probabilidades para ayudar a informar a los fijadores de cuotas, mientras que un apostador puede usarlas para evaluar si se debe realizar una apuesta.

Para predecir el ganador de la Copa del Mundo 2010, es necesario predecir el ganador de una serie de partidos. Para ello, utilizo simulación y he escrito un código que utiliza el modelo ajustado del resultado del partido para simular todo el torneo. La Copa del Mundo comienza con ocho mini-ligas (grupos) de cuatro equipos, jugando entre sí una vez. Los equipos de primer y segundo lugar en cada grupo avanzan a las fases eliminatorias. Esta estructura del torneo afecta la probabilidad de que un equipo gane.

Por ejemplo, en la próxima Copa del Mundo, los equipos con más probabilidades de progresar desde el Grupo G son Brasil y Portugal. El equipo con más probabilidades de ganar el Grupo H es España. Los ganadores (subcampeones) del Grupo H luego se encuentran con los subcampeones (ganadores) del grupo G en la primera ronda eliminatoria. Por lo tanto, España tiene casi garantizado un partido difícil en la primera ronda eliminatoria. Compare esto con los favoritos del Grupo A, Francia, que probablemente se enfrentará al subcampeón del Grupo B. Dados los favoritos del Grupo B, Argentina, son mucho más fuertes que los otros equipos del grupo, Francia (y Argentina) es probable que tengan partidos menos difíciles en la primera fase eliminatoria que España, Brasil y Portugal.

Está claro entonces, que predecir los ganadores del torneo en general no es solo un caso de elegir el mejor equipo. Hay que tener en cuenta el efecto de la estructura del torneo. Los resultados de 100.000 torneos simulados se muestran en la tabla de la izquierda.

A pesar de sus empates aparentemente difíciles, España y Brasil siguen siendo primeros y segundos en términos de número de victorias. El número de victorias se puede convertir fácilmente en una probabilidad predicha de ganar el torneo para cada equipo que se muestra en la tercera columna de la tabla (izquierda).

Es interesante comparar las probabilidades de victoria previstas con la Clasificación Mundial de la FIFA. Francia es un gran jugador hacia arriba, posiblemente debido a su empate más fácil, mientras que Portugal cae al noveno favorito, a pesar de ser el tercer equipo clasificado en el mundo.

Dado que el uso más frecuente de este modelo es comparar las probabilidades con las de las casas de apuestas, las columnas quinta y sexta de la tabla muestran las probabilidades y las probabilidades implícitas de Bet365, en la fecha en que hice mis predicciones (14 de mayo de 2010). Tengo que admitir que cuando vi las similitudes, me alegré, ya que confirma que el modelo y el ejercicio de simulación dan resultados sensatos. Sin embargo, una inspección más detallada revela algunas discrepancias. Tiempo de descargo de responsabilidad: Tenga en cuenta que no sugiero que use estas cuotas para realizar una apuesta. Los corredores de apuestas realmente saben lo que están haciendo e incorporan mucha más información que he utilizado para informar a sus probabilidades, ¡también se les paga mucho más que a mí por hacer este tipo de cosas!

Parece que los corredores de apuestas piensan que España y Brasil tienen más probabilidades de ganar que yo, lo que sugiere que en realidad no son buenos equipos para respaldar (con estas probabilidades). Esto podría deberse a que se están protegiendo contra el mercado que está dispuesto a estar en estos equipos, una historia similar es cierta para Inglaterra.

Francia, por otro lado, ofrece un buen valor: el modelo sugiere que la probabilidad de victoria es casi el doble de la probabilidad asumida por la casa de apuestas. Sería difícil de aceptar para cualquier fanático de la República de Irlanda, si Francia ganara la Copa del Mundo, dado que fueron eliminados de la Copa del Mundo por el delantero francés Thierry Henry en el giro del siglo 21 en la meta de la “mano de Dios”.

Así que aquí está, me arriesgo (al menos el modelo lo hace) para darte algunos consejos, basados puramente en estadísticas (no mi opinión):

España es el favorito del torneo, pero puede que no ofrezca una relación calidad-precio. (El lector más astuto reconocerá esto como la respuesta de un político: si España gana, puedo decir “Te dije que eran favoritos”, mientras que si pierden, puedo decir “Te dije que no eran una buena apuesta, ¡había un 88,4 por ciento de probabilidades de que no ganaran”!)

Francia para ganar es una buena apuesta.

También persuadí a Jarowek para que me diera una propina:

Brasil no ganará. (Normalmente reservado y cauteloso).

Las predicciones del modelo para las últimas etapas del torneo son:

QF1: Holanda vs Brasil

QF2: Francia vs Inglaterra

QF3: Alemania vs Argentina

QF4: Italia vs España

Semi-final de la línea:

SF1: Brasil vs Francia

SF2: Argentina vs España

Final:

Brasil vs España

Bastante obvio realmente! Debo decir que, aunque mi reputación como estadístico se basa en que estos consejos son razonablemente buenos, animaré a mi Inglaterra natal sin importar a quién pertenezca la oposición. Espero con anticipación el inicio el 11 de junio…

Leave a Reply