Regressão de Poisson vs. regressão de mínimos quadrados com contagem de logarítmos?

21

Uma regressão de Poisson é um GLM com uma função de log-link.

Uma maneira alternativa de modelar dados de contagem distribuídos de maneira não-normal é pré-processar usando o log (ou melhor, log (1 + count) para manipular zeros). Se você fizer uma regressão de mínimos quadrados nas respostas de contagem de log, isso está relacionado a uma regressão de Poisson? Ele pode lidar com fenômenos semelhantes?

Brendan OConnor
fonte
6
Como você planeja obter logaritmos de qualquer contagem que seja zero?
whuber
3
Definitivamente não é equivalente. Uma maneira fácil de ver isso é ver o que aconteceria se você observasse a contagem zero. (Comentário criado antes de ver o comentário de @ whuber. Aparentemente, esta página não foi atualizada adequadamente no meu navegador.) #
cardeal
OK, obviamente, devo dizer, log (1 + contagem). Obviamente não é equivalente, mas querendo saber se havia um relacionamento ou se eles podem lidar com fenômenos semelhantes.
Brendan OConnor 21/03
1
Há uma discussão útil sobre esse problema aqui: blog.stata.com/2011/08/22/…
Michael Bishop

Respostas:

22

Por um lado, em uma regressão de Poisson, o lado esquerdo da equação do modelo é o logaritmo da contagem esperada: .registro(E[Y|x])

Por outro lado, em um modelo linear "padrão", o lado esquerdo é o valor esperado da variável de resposta normal: . Em particular, a função de link é a função de identidade.E[Y|x]

Agora, digamos que é uma variável de Poisson e que você pretende normalizá-la usando o log: . Como deveria ser normal, você planeja ajustar o modelo linear padrão para o qual o lado esquerdo é . Mas, em geral, . Como conseqüência, essas duas abordagens de modelagem são diferentes.YY=registro(Y)YE[Y|x]=E[log(Y)|x]E[log(Y)|x]log(E[Y|x])

ocram
fonte
6
Na verdade, sempre, a menos que para alguns -mensurável função , isto é, é completamente determinada por . E(log(Y)|X)log(E(Y|X)) P(Y=f(X)|X)=1σ(X)fYX
cardinal
@cardeal. Muito bem colocado.
suncoolsu
9

Eu vejo duas diferenças importantes.

Primeiro, os valores previstos (na escala original) se comportam de maneira diferente; nos mínimos quadrados loglineares representam médias geométricas condicionais; no modelo log-poisson, representam médias condicionais. Como os dados nesse tipo de análise geralmente são inclinados para a direita, a média geométrica condicional subestima a média condicional.

Uma segunda diferença é a distribuição implícita: lognormal versus poisson. Isso se refere à estrutura de heterocedasticidade dos resíduos: variação residual proporcional aos valores esperados ao quadrado (lognormal) versus variação residual proporcional ao valor esperado (Poisson).

ludo
fonte
-1

Uma diferença óbvia é que a regressão de Poisson produzirá números inteiros como previsões pontuais, enquanto a regressão linear de contagem de log pode produzir números não inteiros.

Galit Shmueli
fonte
12
Como isso funciona? O GLM não estima expectativas , que não são necessariamente integrais?
whuber
1
Isso é falso. Mecanicamente, as regressões de Poisson são perfeitamente capazes de lidar com não-inteiros. Os erros padrão não serão distribuídos por poisson, mas você pode usar apenas erros padrão robustos.
Mateus