Na modelagem de dados de contagem de solicitações em um ambiente de seguro, comecei com Poisson, mas depois notei superdispersão. Um Quasi-Poisson modelou melhor a maior relação média-variância que o Poisson básico, mas notei que os coeficientes eram idênticos nos modelos de Poisson e Quasi-Poisson.
Se isso não é um erro, por que isso está acontecendo? Qual é o benefício de usar o Quasi-Poisson sobre o Poisson?
Coisas a serem observadas:
- As perdas subjacentes são excessivas, o que (acredito) impediu o Tweedie de funcionar - mas foi a primeira distribuição que tentei. Também examinei os modelos NB, ZIP, ZINB e Hurdle, mas ainda assim achei o Quasi-Poisson o mais adequado.
- Testei a super-dispersão via dispersiontest no pacote AER. Meu parâmetro de dispersão foi de aproximadamente 8,4, com valor de p na magnitude 10 ^ -16.
- Estou usando glm () com family = poisson ou quasipoisson e um link de log para o código.
- Ao executar o código Poisson, saio com avisos de "In dpois (y, mu, log = TRUE): não inteiro x = ...".
Threads úteis da SE de acordo com a orientação de Ben:
counts/exposure
. Em vez disso, você deve adicionar umoffset(log(exposure))
termo offset ( ) aos seus modelos.Respostas:
fonte