Modelagem de um resultado de vitória-empate-perda no esporte

7

Tenho dados sobre diferentes equipes, jogadores etc. Estou tentando descobrir a melhor maneira de modelar o resultado de uma partida, que pode terminar em uma vitória para o time da casa, uma perda para o time da casa ou um empate. Estou tendo problemas para modelar isso.

Por exemplo, posso usar uma regressão de Poisson para modelar o número de objetivos que cada equipe marca e depois calcular uma grade de suas probabilidades, mas não estou muito feliz com a suposição de independência. Eu também poderia fazer um poisson bivariado, com o qual não tenho muita experiência. Gostaria de saber o que é uma abordagem adequada para modelar a dependência do resultado nas duas equipes, além de preservar o fato de que os resultados são mutuamente exclusivos (as probabilidades atribuídas à perda de empate na vitória devem somar unidade).

dimebucker91
fonte
Por que não tentar modelar a diferença de gol esperada em vez de modelar o gol marcado entre as duas equipes de forma independente?
Antoine Vernet
Não tenho a resposta, mas segui este site fazendo o mesmo que você pretende. Eles fizeram previsões para o Euro 2016 e compararam com a aleatoriedade e a razão de chances do site de apostas. Acontece que a taxa de chances real é um pouco melhor do que as previsões: kickoff.ai
Metariat 18/08/16

Respostas:

4

Você pode usar a distribuição Poisson bivariada com função de massa de probabilidade

f(x,y)=exp{(λ1+λ2+λ3)}λ1xx!λ2yy!k=0min(x,y)(xk)(yk)k!(λ3λ1λ2)k

onde e e , para que você possa tratar como uma medida de dependência entre os dois marginais Distribuições de Poisson. O pmf e a geração aleatória para esta distribuição são implementados no pacote extraDistr se você estiver usando R.E(X)=λ1+λ3E(Y)=λ2+λ3cov(X,Y)=λ3λ3

De fato, essa distribuição foi descrita em termos de análise de dados esportivos por Karlis e Ntzoufras (2003), para que você possa verificar o artigo deles para obter mais detalhes. Esses autores em seu artigo anterior discutiram também o modelo univariado de Poisson, onde concluíram que a suposição de independência fornece uma aproximação justa, já que a diferença entre os escores de ambas as equipes não depende do parâmetro de correlação do bivariado de Poisson (Karlis e Ntzoufras, 2000).

Kawamura (1984) descreveu a estimativa de parâmetros para a distribuição bivariada de Poisson por pesquisa direta, utilizando a máxima verossimilhança. Quanto aos modelos de regressão, você pode usar o algoritmo EM para estimativa de máxima verossimilhança, como Karlis e Ntzoufras (2003), ou modelo bayesiano estimado usando MCMC. O algoritmo EM para regressão bivariada de Poisson é implementado no pacote bivpois (Karlis e Ntzoufras, 2005) que infelizmente está sem CRAN neste momento.


Karlis, D. & Ntzoufras, I. (2003). Análise de dados esportivos usando modelos bivariados de Poisson. Jornal da Sociedade Estatística Real: Série D (The Statistician), 52 (3), 381-393.

Karlis, D. e Ntzoufras, I. (2000) Na modelagem de dados de futebol. Student, 3, 229-244.

Kawamura, K. (1984). Cálculo direto do estimador de máxima verossimilhança para a distribuição bivariada de Poisson. Jornal matemático Kodai, 7 (2), 211-221.

Karlis, D. e Ntzoufras, I. (2005). Poisson bivariado e modelos de regressão bivariada diagonal de Poisson em R. Journal of Statistical Software, 14 (10), 1-36.

Tim
fonte
3

O Poisson bivariado não acomoda correlação negativa entre e . Um modelo para isso pode ser construído aplicando a função quantílica de Poisson a cada componente de uma cópula gaussiana. A função de massa probabilística bivariada resultante é facilmente calculada em R com o código a seguir, onde o vetor contém os parâmetros das duas distribuições marginais de Poisson e é a correlação da distribuição binormal padrão.x1x2lambdarho

library(mvtnorm)
dbipoisgausscopula <- function(x, lambda, rho) {
   pmvnorm(lower=qnorm(ppois(x-1,lambda)),
      upper=qnorm(ppois(x,lambda)),
      mean=c(0,0),
      sigma=matrix(c(1,rho,rho,1),2,2)
   )
}
Jarle Tufto
fonte