Como é possível que o Poisson GLM aceite números não inteiros?

17

Estou realmente impressionado com o fato de o Poisson GLM aceitar números não inteiros! Veja:

Dados (conteúdo de data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

Script R:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

O índice do ano resultante é o "esperado", ou seja, 1-2-4em anos 2001-2003.

Mas como é possível que o Poisson GLM pegue números não inteiros? A distribuição Poisson sempre foi somente número inteiro!

Curioso
fonte
2
Você poderia esclarecer o que exatamente você quer saber? Como o algoritmo de ajuste lida com não-inteiros? Ou por que R não verifica se a resposta é um número inteiro? Ou se algo está errado no resultado quando são fornecidos números não inteiros?
Momo
@ Momo, sim, todas essas perguntas são interessantes!
Curioso
2
Edite sua pergunta para refletir isso. É mais provável que você obtenha uma boa resposta dessa maneira.
Momo
8
Não que isso realmente importe, como também é verdade family="poisson", mas observe que seu exemplo não é um Poisson GLM, pois você está usando a quasipoissonfamília, o que depende apenas da relação entre a média e a variância de qualquer maneira. Nesse caso, não deve haver surpresa em obter números não inteiros.
Aaron - Reinstate Monica
1
Aqui estão algumas referências sobre por que isso pode fazer sentido.
Dimitriy V. Masterov 15/09/2013

Respostas:

17

Claro que você está certo de que a distribuição de Poisson tecnicamente é definida apenas para números inteiros. No entanto, a modelagem estatística é a arte de boas aproximações (" todos os modelos estão errados ") e há momentos em que faz sentido tratar dados não inteiros como se fossem [aproximadamente] Poisson.

Por exemplo, se você enviar dois observadores para registrar os mesmos dados de contagem, pode acontecer que os dois nem sempre concordem com a contagem - pode-se dizer que algo aconteceu três vezes enquanto o outro disse que aconteceu quatro vezes. É bom ter a opção de usar 3.5 ao ajustar seus coeficientes de Poisson, em vez de escolher entre 3 e 4.

Computacionalmente, o fatorial no Poisson pode dificultar o trabalho com não-inteiros, mas existe uma generalização contínua do fatorial. Além disso, a realização da estimativa de máxima verossimilhança para o Poisson nem mesmo envolve a função fatorial, uma vez que você simplifica a expressão .

zkurtz
fonte
15

Para uma resposta , se você assumir que o logaritmo de sua expectativa é uma combinação linear de preditores x E Y i = exp β T x i e sua variação é igual à sua expectativa Var Y i = E Y i , estimativas consistentes para a regressão os coeficientes β podem ser obtidos através da resolução das equações de pontuação para o modelo de Poisson: n i x i ( y i - exp β T x i ) = 0yx

EYEu=expβTxEu
VarYEu=EYEu
β
EunxEu(yEu-expβTxEu)=0 0
Obviamente, a consistência não implica validade de quaisquer testes ou intervalos de confiança; a probabilidade não foi especificada.

Isso se segue da abordagem do método dos momentos que aprendemos na escola e leva à de equações de estimativa generalizada .

@ Aaron apontou que você está realmente usando um ajuste quase-Poisson no seu código. Isso significa que a variação é proporcional à média

VarYEu=ϕEYEu

ϕ

Scortchi - Restabelecer Monica
fonte