Um modelo "de última geração" para a distribuição de gols marcados em uma partida de futebol é o de Dixon e Robinson (1998) "Um modelo de processo de nascimento para partidas de futebol de associação", responsável por dois fenômenos principais:
1) Mais gols são marcados no final dos jogos do que no início (supostamente devido ao cansaço sofrido pelas duas equipes)
2) As taxas de pontuação dependem da linha de pontuação atual por uma infinidade de razões, como equipes com uma vantagem se tornando complacentes ou equipes que preferem disputar um empate, em vez de arriscar uma perda ao tentar a vitória
O modelo assume que os gols marcados pelas equipes da casa e fora de uma partida seguem processos não homogêneos de Poisson. Seja o tempo decorrido em uma partida, normalizado para cair entre 0 e 1 , o vetor x comprimento → t H denota os horários em que a equipe da casa marcou gols e o vetor comprimento y → t A denota os horários em que a equipe visitante marcou gols. A probabilidade da partida é então
onde é a taxa de pontuação da equipe da casa no tempo t dependente de uma combinação de fatores homogêneos no tempo (por exemplo, capacidade de ataque do time da casa versus capacidade de defesa da equipe visitante, vantagem em casa) e fatores não homogêneos do tempo (por exemplo, linha de pontuação no tempo t ) Da mesma forma para μ ( t ) .
Os dois processos são dependentes porque, quando uma equipe marca a linha de pontuação muda e as taxas de pontuação são dependentes da linha de pontuação.
A probabilidade pode ser facilmente avaliada executando a integração no expoente numericamente. Portanto, é simples calcular os parâmetros do modelo (habilidades da equipe, vantagem em casa, efeito do tempo, parâmetros da linha de pontuação etc.) via probabilidade máxima.
Em termos de previsão, quantidades óbvias de interesse são:
- : equipe da casa vence
- : equipe visitante vence
- : desenhar
- Probabilidade de linhas de pontuação específicas, por exemplo,
- Probabilidade de total de gols na partida, por exemplo,
Para calcular essas quantidades (aproximadamente) com base em um conjunto de parâmetros do modelo, poderíamos usar os métodos de Monte Carlo para gerar correspondências de acordo com esses processos e, em seguida, calcular as frequências de cada pontuação final. A simulação dos processos é relativamente direta, gerando metas a partir de um único processo Poisson homogêneo envolvente em conjunto com a amostragem por rejeição e depois distribuindo-as para a equipe da casa ou fora de acordo.
A desvantagem dessa abordagem é, obviamente, a carga computacional da simulação de Monte Carlo. Considere tentar fazer previsões em tempo real à medida que as partidas estão sendo disputadas, das quais pode haver muitas acontecendo simultaneamente, e isso rapidamente se torna motivo de preocupação.
Minha pergunta, portanto, é se existem abordagens alternativas que podemos considerar que não incorrem, como alto custo computacional (mesmo que elas dependam de uma aproximação que sacrifique a precisão para facilitar o cálculo)?
Para maior clareza, não estou procurando sugestões (básicas) sobre como implementar com eficiência a simulação de Monte Carlo, que eu já escrevi em C multithread, usa números quase aleatórios que foram pré-gerados usando desenrolamento e explorações por desbaste por partes. alcançar uma taxa de aceitação muito alta. Se você acha que ainda há espaço para um aumento dramático no desempenho, é claro que sou todo ouvidos, mas realmente estou procurando uma abordagem fundamentalmente diferente!
fonte