Se deve ser utilizado um deslocamento na regressão de Poisson ao prever o total de gols marcados pelos jogadores de hóquei

10

Eu tenho uma pergunta sobre se deve ou não usar um deslocamento. Suponha um modelo muito fácil, onde você deseja descrever o número (geral) de gols no hóquei. Então você tem gols, número de jogos jogados e uma variável dummy "atacante" que é igual a 1 se o jogador for atacante e 0 caso contrário. Então, qual dos seguintes modelos está especificado corretamente?

  1. objetivos = jogos + atacante, ou

  2. gols = deslocamento (jogos) + atacante

Novamente, os objetivos são objetivos gerais e o número de jogos é um jogo para um único jogador. Por exemplo, pode haver um jogador escolhido com 50 gols em 100 jogos e outro jogador com 20 gols em 50 jogos e assim por diante.

O que devo fazer quando gostaria de estimar o número de metas? É realmente necessário usar um deslocamento aqui?

Referências:

MarkDollar
fonte
Qual é a sua variável dependente? É o número total de gols em uma carreira até agora para um jogador específico? Além disso, existe uma razão pela qual você não deseja prever gols médios por jogo?
Jeromy Anglim
Sim, é o número total de gols! Não, eu não tenho os dados para todos os jogos. Eu só tenho os dados gerais.
precisa saber é o seguinte
A variável dependente é (número de) objetivos. (Veja as equações acima)
MarkDollar 5/11/11
Ajustamos um pouco o título para que ele não seja uma duplicata da pergunta anterior. Sinta-se livre para modificar se eu tiver interpretado mal.
Jeromy Anglim

Respostas:

16

Um modelo de deslocamento está modelando metas por jogo, como se pode ver aqui:

log(goals/games) = a+bx

é equivalente a

log(goals) -log(games) = a+bx

é equivalente a

log(goals)= a+bx +log(games)   <-this is an offset model, assumes coef on the last term =1

Veja o slide 35 aqui: http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/4glm3-ha-online.pdf

Se você acha que a + bx está relacionado à proporção de log de gols para jogos (a taxa), use um deslocamento. Se você acha que há um efeito de jogo mais complicado, talvez por acumular experiência, não. Para obter mais discussões, consulte o seguinte: http://ezinearticles.com/?The-Exposure-and-Offset-Variables-in-Poisson-Regression-Models&id=2155811

Patrick McCann
fonte
1

Alguns pontos simples que não abordam diretamente sua pergunta sobre compensações:

  • Eu verificaria se o número de jogos está correlacionado com os gols médios marcados. Em muitos esportes de elite para marcar gols em que consigo pensar (por exemplo, futebol, futebol australiano, etc.), eu previa que a longevidade de uma carreira está relacionada ao sucesso de uma carreira. E pelo menos para jogadores em funções de pontuação, o sucesso está relacionado ao número de gols marcados. Se isso for verdade, o número de jogos capturaria dois efeitos. Alguém poderia estar relacionado ao simples fato de que mais jogos jogados significam mais oportunidades para marcar gols; e o outro capturaria efeitos relacionados a habilidades. Você pode examinar a relação entre o número de jogos e os gols médios marcados (por exemplo, gols / número de jogos) para explorar isso. Eu acho que isso tem implicações substanciais para qualquer modelagem que você faça.
  • Meus instintos são converter a variável dependente em objetivos médios por jogo. Sei que você teria uma medição mais precisa da habilidade de um jogador para aqueles que jogavam mais jogos, então talvez isso seja um problema. Dependendo da precisão em seu modelo que você deseja e da distribuição resultante dos meios de reprodução, você poderá confiar nas técnicas padrão de modelagem linear. Mas talvez isso seja aplicado demais para seus propósitos, e talvez você tenha razões para querer modelar o total de gols marcados.
Jeromy Anglim
fonte
Olá Jeromy! O que você deseja é absolutamente correto. Mas não há como criar um modelo que mede objetivos / jogos. Então, sou forçado ao modelo acima (objetivos como dependente e jogos como variável independente). Eu sei que os jogos estão correlacionados com coisas como habilidade e que eu tenho que explorar esse problema (problema de variáveis ​​omitidas e endogenidade). Mas, no momento, estou me perguntando qual dos dois modelos acima deve ser usado!
MarkDollar