a Ciência da previsão de resultados de futebol

prever resultados de futebol é uma área em rápido crescimento de interesse acadêmico. Os economistas usam modelos para avaliar a eficiência dos mercados de apostas, os pesquisadores operacionais usam modelos para experimentar os vários efeitos do design de torneios e os estatísticos mostram sua proficiência com técnicas estatísticas avançadas modelando os meandros dos dados do futebol.

não são, é claro, apenas acadêmicos que estão minerando os arquivos dos resultados do futebol. As casas de apostas vivem e respiram modelos de previsão de futebol-assim como os flutterers mais comprometidos. Erros custam dinheiro e empregos, enquanto encontrar uma pequena vantagem pode trazer grandes recompensas.

mercados de apostas

na academia, a aplicação mais comum de modelos de previsão de futebol é testar a eficiência do mercado de apostas. A hipótese dos mercados eficientes (EMH) é uma pedra angular da teoria financeira e, em sua forma mais simples, afirma que um investidor não deve ser capaz de obter retornos consistentemente acima da média. Encontrar um modelo de previsão do futebol que possa gerar retornos melhores que a média – ou mesmo positivos – geralmente resulta em uma publicação para o acadêmico como um exemplo de violação do EMH, mas a natureza proprietária dos modelos significa que os publicados raramente (ou nunca) representam os melhores modelos e, com menos frequência, geram retornos positivos de forma consistente.

os modelos com melhor desempenho são a reserva da indústria do jogo. É fundamental que uma casa de apostas defina probabilidades em um valor que represente realisticamente as probabilidades de uma partida ser vencida, sorteada ou perdida. Se a casa de apostas não conseguir fazer isso, corre o risco de grandes perdas.

por exemplo, as casas de apostas Asiáticas não pensariam em fazer uma aposta individual de US $ 200.000 – e recebem regularmente apostas de US $400.000-e um fim de semana típico na Premier League inglesa normalmente atrai US $500 milhões na Ásia. Com essas marés de dinheiro sendo apostadas, não é de surpreender que as casas de apostas usem todas as ferramentas possíveis à sua disposição – uma delas sendo modelos matemáticos.

um modelo matemático não é normalmente usado por conta própria para definir probabilidades. Um expert odds-setter é empregado para ajustar as probabilidades geradas pelo modelo, dadas quaisquer informações extras. Por exemplo, um modelo típico pode levar em conta os resultados recentes de uma equipe e a posição de cada equipe apenas na liga. O criador de probabilidades ajustará essas probabilidades previstas para explicar, digamos, uma lesão em um jogador estrela.

do outro lado do mercado, estão os apostadores. Empresas especializadas oferecem serviços para aconselhar os clientes quais apostas fazer. Maciej Jarowek é um consultor de apostas para AsianConnect88.com, um corretor de apostas. Pedi – lhe seus pensamentos sobre o uso da Matemática na indústria. Como uma casa de apostas faz, ele usa um modelo para dar-lhe um ponto de partida e, em seguida, ajusta as probabilidades como achar melhor.Jarowek é um especialista em futebol polonês, e quando ele encontra uma discrepância entre suas probabilidades e as das casas de apostas, ele pode escolher se a discrepância é suficiente para aconselhar fazer uma aposta. Ele diz que a maior vantagem que os jogadores profissionais têm sobre a casa de apostas é que eles não precisam apostar em todas as partidas – eles podem escolher e escolher. Dado que Jarowek é um dos muitos jogadores profissionais que trabalham para AsianConnect88.com, e que existem inúmeras agências desse tipo em operação, parece que há um espaço considerável para vencer o mercado.

comparado com outros esportes, o resultado de uma partida de futebol é relativamente difícil de prever. Alguns acadêmicos acreditam que esta é uma das fontes da popularidade do futebol – os fãs nunca sabem realmente o resultado de uma partida antes de acontecer, tornando assistir ao jogo uma proposta emocionante.

especialistas fazem carreiras com base nessa incerteza de resultado e passam horas intermináveis contemplando cada evento possível em uma partida. Há inúmeros transtornos no futebol doméstico todo fim de semana, e a Copa do mundo aumenta seu quinhão de assassinatos gigantes. Dada essa imprevisibilidade inerente, como podemos fazer previsões?

existem duas abordagens amplas para modelar os resultados dos jogos de futebol. Primeiro, pode – se prever o resultado diretamente-se o resultado será uma vitória, um empate ou uma perda. Neste caso, o resultado (vitória, perda, Empate) é uma variável ordinal (uma vitória é melhor do que um empate que é melhor do que uma perda). O modelo de escolha aqui é um regressão ordinal, como probit ordenado. A saída de tal modelo é a probabilidade de cada resultado, de modo que para uma próxima partida pode-se usar o modelo para calcular a probabilidade de uma vitória, empate ou perda.

a segunda abordagem para modelar um resultado de partida é um método indireto em que o analista modela a pontuação exata do jogo. Nesse caso, o analista estima a probabilidade de cada possível Número de gols marcados por cada equipe. Pode-se então inferir a probabilidade de uma equipe ganhar, desenhar ou perder a partida somando as probabilidades exatas de pontuação relevantes.

um probit ordenado

evidências sugerem muito pouca diferença no desempenho de cada abordagem no resultado da correspondência de modelagem. Aqui, eu construo um modelo do primeiro tipo, ou seja, um modelo ‘probit ordenado’.

o modelo probit ordenado pode ser usado para estimar a probabilidade dos três resultados de uma partida. Para fazer isso, ele usa informações sobre cada equipe. Por exemplo, parece razoável que uma equipe que venceu suas últimas três partidas tenha uma probabilidade maior de vencer sua próxima partida do que uma equipe que perdeu suas últimas três partidas. Da mesma forma, uma equipe classificada acima da oposição tem uma probabilidade maior de vencer a partida do que a equipe de classificação inferior. A quantidade de probabilidade de vitória muda, dado que essas pepitas de informações são governadas pelos parâmetros do modelo. Em um modelo estatístico, os parâmetros são estimados para melhor explicar o que aconteceu no passado.

meu modelo aqui é baseado em quase 9.000 resultados de partidas internacionais ao longo de um período de oito anos. As informações e os efeitos sobre a probabilidade de uma equipe vencer uma partida são:

  • Local-casa / fora ou neutro. É mais provável que uma equipe vença se estiver em casa;
  • distância da capital ao local do jogo. É mais provável que uma equipe ganhe quanto menor a distância percorrida (pelos torcedores e pela própria equipe);
  • diferença no ranking mundial entre as equipes. Uma equipe com classificação mais alta tem maior probabilidade de vencer;
  • mudança no ranking mundial para cada equipe durante os 12 meses anteriores. É mais provável que uma equipe que melhore ganhe;
  • tipo de partida, a saber: torneio principal (Copa do mundo ou Campeonato da Confederação), Torneio menor (outro sancionado pela FIFA), qualificador ou amistoso. Melhores equipes levam os principais torneios mais a sério;
  • resultados anteriores da partida. Para cada jogo, eu uso os oito resultados anteriores para cada equipe (em média, uma equipe nacional joga oito partidas em um período de 12 meses). Além dos resultados, conheço o ranking mundial de cada uma das oito equipes da oposição no momento do jogo.

usar a informação de resultados passados precisa de um pouco de pensamento extra. Uma vitória por 1-0 para uma equipe classificada em 200 contra uma equipe classificada em 4 representa claramente um desempenho melhor do que se as equipes fossem classificadas em 200 e 198, respectivamente. Como consequência, os resultados passados devem ser ponderados em relação ao resultado e em relação à força da oposição. Uma métrica de desempenho passado (ppm), que captura essa relação, é dada pela fórmula na parte superior (esquerda) desta página.

Este ppm vai de ‘-1’ para ‘1’, onde ‘-1’ representa o pior resultado possível, o topo do ranking equipe perder para a parte inferior do ranking da equipe – e ‘1’ representa o pior do ranking equipe a bater o melhor do ranking da equipe. Observe que 204 é o valor máximo do ranking de qualquer equipe durante o período em consideração. A métrica de desempenho anterior é plotada no topo (à direita) desta página.

(sshhh – eu prevejo o vencedor da Copa Do Mundo)

o modelo probit ordenado descrito acima pode ser usado para estimar a probabilidade de cada resultado (Vitória/Empate/derrota) em uma partida. Uma casa de apostas pode usar essas probabilidades para ajudar a informar os criadores de probabilidades, enquanto um apostador pode usá-las para avaliar se uma aposta deve ser feita.

para prever o vencedor da Copa do mundo de 2010, é preciso prever o vencedor de uma série de partidas. Para fazer isso, eu uso simulação e escrevi um código que usa o modelo ajustado de resultado da partida para simular todo o torneio. A Copa do mundo começa com oito mini-ligas (grupos) de quatro times, jogando um ao outro uma vez. As equipes de primeiro e segundo colocados em cada grupo, em seguida, progredir para as fases eliminatórias. Essa estrutura de Torneio afeta a probabilidade de uma equipe vencer.

por exemplo, na próxima Copa do mundo, as equipes mais prováveis de progredir do Grupo G são o Brasil e Portugal. A equipe mais provável para vencer o Grupo H é a Espanha. Os vencedores (vice-campeões) do Grupo H então encontram os vice-campeões (vencedores) do Grupo G na primeira rodada eliminatória. Assim, a Espanha está quase garantida uma partida difícil na primeira rodada eliminatória. Compare isso com o Grupo de favoritos, França, que provavelmente irá enfrentar o segundo colocado do Grupo B. o Grupo B favoritos, Argentina, são muito mais fortes do que as outras equipes do grupo, a França (e Argentina) são susceptíveis de ter menos difícil partidas na primeira fase de grupos do que em Espanha, Brasil e Portugal.

é claro, então, que prever os vencedores do torneio em geral não é apenas um caso de escolher o melhor time. É preciso levar em consideração o efeito da estrutura do torneio. Os resultados de 100.000 torneios simulados são mostrados na tabela, à esquerda.Apesar de seus empates aparentemente difíceis, Espanha e Brasil ainda são o primeiro e o segundo em termos de número de Vitórias. O número de Vitórias pode ser facilmente convertido em uma probabilidade prevista de ganhar o torneio para cada equipe, que é mostrada na terceira coluna da tabela (esquerda).

é interessante comparar as probabilidades de vitória previstas com o ranking mundial da FIFA. A França é um grande motor para cima-possivelmente por causa de seu empate mais fácil, enquanto Portugal caiu para o nono favorito, apesar de ser a equipe do terceiro lugar no mundo.

Dado que o uso mais frequente de um tal modelo é comparar as probabilidades com os das casas de apostas, a quinta e sexta colunas da tabela de dar as probabilidades e probabilidades implícitas da Bet365, na data em que fiz minhas previsões (14 de Maio de 2010). Tenho que admitir, quando vi as semelhanças, fiquei satisfeito-confirma que o modelo e o exercício de simulação dão resultados sensatos. No entanto, uma inspeção mais detalhada revela algumas discrepâncias. Tempo de isenção de responsabilidade: observe que não sugiro que você use essas probabilidades para fazer uma aposta. Os apostadores realmente sabem o que estão fazendo e incorporam muito mais informações que usei para informar suas chances – eles também recebem muito mais do que eu por fazer esse tipo de coisa!Parece que as casas de apostas pensam que a Espanha e o Brasil são mais propensos a vencer do que eu, sugerindo que essas não são boas equipes para apoiar (nessas probabilidades). Isso pode ser porque eles estão se protegendo contra o mercado que deseja estar nessas equipes – uma história semelhante é verdadeira para a Inglaterra.A França, por outro lado, oferece um bom valor – o modelo sugere que a probabilidade de vitória é quase o dobro da probabilidade assumida pela casa de apostas. Será difícil levar para qualquer fã da República da Irlanda, se a França vencesse a Copa do mundo, já que eles foram eliminados da Copa do mundo pela rodada do século 21 do atacante francês Thierry Henry na meta da ‘mão de Deus’.

então aqui está – eu coloquei meu pescoço na linha (pelo menos o modelo faz) para lhe dar algumas dicas, com base puramente em estatísticas (não a minha opinião):

Espanha são os favoritos do torneio, mas pode não oferecer valor para o dinheiro. (O leitor mais astuto reconhecerá isso como uma resposta de um político: se a Espanha vencer, posso dizer ‘eu disse que eles eram favoritos’, enquanto se eles perderem, posso dizer ‘eu disse que eles não eram uma boa aposta-havia uma probabilidade de 88,4% de eles não ganharem’!)

França para ganhar é uma boa aposta.

também convenci Jarowek a me dar uma dica:

Brasil para não vencer. (Normalmente reservado e cauteloso).

O modelo de predição para as últimas fases do torneio são:

QF1: Holanda x Brasil

QF2: França vs Inglaterra

QF3: Alemanha vs Argentina

QF4: Itália vs Espanha

Semi-final da linha de cima:

SF1: Brasil vs França

SF2: Argentina vs Espanha

Final:

Brasil vs Espanha

Bastante óbvio, realmente! Devo dizer que, embora minha reputação como estatístico se baseie nessas dicas sendo razoavelmente boas, estarei torcendo pela minha Inglaterra natal, não importa quem seja a oposição. Espero ansiosamente pelo início do dia 11 de junho…

Leave a Reply