Tenho dados sobre diferentes equipes, jogadores etc. Estou tentando descobrir a melhor maneira de modelar o resultado de uma partida, que pode terminar em uma vitória para o time da casa, uma perda para o time da casa ou um empate. Estou tendo problemas para modelar isso.
Por exemplo, posso usar uma regressão de Poisson para modelar o número de objetivos que cada equipe marca e depois calcular uma grade de suas probabilidades, mas não estou muito feliz com a suposição de independência. Eu também poderia fazer um poisson bivariado, com o qual não tenho muita experiência. Gostaria de saber o que é uma abordagem adequada para modelar a dependência do resultado nas duas equipes, além de preservar o fato de que os resultados são mutuamente exclusivos (as probabilidades atribuídas à perda de empate na vitória devem somar unidade).
fonte
Respostas:
Você pode usar a distribuição Poisson bivariada com função de massa de probabilidade
onde e e , para que você possa tratar como uma medida de dependência entre os dois marginais Distribuições de Poisson. O pmf e a geração aleatória para esta distribuição são implementados no pacote extraDistr se você estiver usando R.E(X)=λ1+λ3 E(Y)=λ2+λ3 cov(X,Y)=λ3 λ3
De fato, essa distribuição foi descrita em termos de análise de dados esportivos por Karlis e Ntzoufras (2003), para que você possa verificar o artigo deles para obter mais detalhes. Esses autores em seu artigo anterior discutiram também o modelo univariado de Poisson, onde concluíram que a suposição de independência fornece uma aproximação justa, já que a diferença entre os escores de ambas as equipes não depende do parâmetro de correlação do bivariado de Poisson (Karlis e Ntzoufras, 2000).
Kawamura (1984) descreveu a estimativa de parâmetros para a distribuição bivariada de Poisson por pesquisa direta, utilizando a máxima verossimilhança. Quanto aos modelos de regressão, você pode usar o algoritmo EM para estimativa de máxima verossimilhança, como Karlis e Ntzoufras (2003), ou modelo bayesiano estimado usando MCMC. O algoritmo EM para regressão bivariada de Poisson é implementado no pacote bivpois (Karlis e Ntzoufras, 2005) que infelizmente está sem CRAN neste momento.
Karlis, D. & Ntzoufras, I. (2003). Análise de dados esportivos usando modelos bivariados de Poisson. Jornal da Sociedade Estatística Real: Série D (The Statistician), 52 (3), 381-393.
Karlis, D. e Ntzoufras, I. (2000) Na modelagem de dados de futebol. Student, 3, 229-244.
Kawamura, K. (1984). Cálculo direto do estimador de máxima verossimilhança para a distribuição bivariada de Poisson. Jornal matemático Kodai, 7 (2), 211-221.
Karlis, D. e Ntzoufras, I. (2005). Poisson bivariado e modelos de regressão bivariada diagonal de Poisson em R. Journal of Statistical Software, 14 (10), 1-36.
fonte
O Poisson bivariado não acomoda correlação negativa entre e . Um modelo para isso pode ser construído aplicando a função quantílica de Poisson a cada componente de uma cópula gaussiana. A função de massa probabilística bivariada resultante é facilmente calculada em R com o código a seguir, onde o vetor contém os parâmetros das duas distribuições marginais de Poisson e é a correlação da distribuição binormal padrão.x1 x2
lambda
rho
fonte