Poisson ou quase Poisson em uma regressão com dados de contagem e super-dispersão?
16
Eu tenho dados de contagem (análise de demanda / oferta com número de clientes, dependendo - possivelmente - de muitos fatores). Tentei uma regressão linear com erros normais, mas meu gráfico QQ não é realmente bom. Tentei uma transformação de log da resposta: mais uma vez, QQ-plot ruim.
Então agora estou tentando uma regressão com erros de Poisson. Com um modelo com todas as variáveis significativas, recebo:
Null deviance: 12593.2 on 53 degrees of freedom
Residual deviance: 1161.3 on 37 degrees of freedom
AIC: 1573.7
Number of Fisher Scoring iterations: 5
O desvio residual é maior que os graus residuais de liberdade: tenho superdispersão.
Como posso saber se preciso usar o quasipoisson? Qual é o objetivo do quasipoisson neste caso? Eu li este aviso no "The R Book", de Crawley, mas não vejo o ponto nem uma grande melhoria no meu caso.
Ao tentar determinar que tipo de equação glm você deseja estimar, pense em relações plausíveis entre o valor esperado de sua variável de destino, dadas as variáveis do lado direito (rhs) e a variação da variável de destino, dadas as variáveis de rhs. Gráficos dos resíduos versus os valores ajustados do seu modelo Normal podem ajudar com isso. Com a regressão de Poisson, a relação assumida é que a variação é igual ao valor esperado; bastante restritivo, acho que você concorda. Com uma regressão linear "padrão", supõe-se que a variação seja constante, independentemente do valor esperado. Para uma regressão quase-poisson, a variação é assumida como sendo uma função linear da média; para regressão binomial negativa, uma função quadrática.
No entanto, você não está restrito a esses relacionamentos. A especificação de uma "família" (que não seja "quase") determina a relação de variância média. Não tenho o livro R, mas imagino que ele tenha uma tabela que mostre as funções da família e os correspondentes relacionamentos de média e variância. Para a família "quase", você pode especificar qualquer um dos vários relacionamentos de variação média e pode até escrever o seu; ver a documentação R . Pode ser que você encontre um ajuste muito melhor especificando um valor não padrão para a função de variação média em um modelo "quase".
Você também deve prestar atenção ao intervalo da variável de destino; no seu caso, são dados de contagem não negativos. Se você tem uma fração substancial de valores baixos - 0, 1, 2 - as distribuições contínuas provavelmente não se encaixam bem, mas se você não tiver, não há muito valor em usar uma distribuição discreta. É raro considerar as distribuições Poisson e Normal como concorrentes.
Sim, você está certo. Aqui eu tenho dados de contagem, mas com valores grandes. Eu deveria usar uma distribuição contínua.
Antonin
8
Você está certo, é provável que esses dados estejam superdispersos. Quasipoisson é um remédio: estima também um parâmetro de escala (que é fixo para modelos de poisson, pois a variação também é a média) e fornecerá melhor ajuste. No entanto, não há mais probabilidade máxima do que você está fazendo e determinados testes e índices de modelo não podem ser usados. Uma boa discussão pode ser encontrada em Venables e Ripley, Modern Applied Statistics with S (Seção 7.5) .
Uma alternativa é usar um modelo binomial negativo, por exemplo, a glm.nb()função no pacote MASS.
Mas sou "forçado" a usar quasipoisson neste caso? Estou perguntando, já que meu modelo não-quasipoisson é melhor (apenas poisson básico) no sentido de que mais variáveis são significativas.
Antonin
2
Isso não faz sentido? Se eu usei um modelo de regressão em que assumi que sigma é 0,0001 em vez de usar a estimativa dos dados (2,3 digamos), é claro que as coisas serão mais significativas.
Dason
11
Antonin: Eu diria que, apenas porque mais variáveis são significativas, isso não torna as coisas "melhores". Estes podem, como apontou Dason, facilmente ser falsos positivos se você subestimar a variação de erro. Eu definitivamente utilizar um método-quasi ou o binomial negativo neste caso, mas a menos que eu rever o seu papel, você não será forçado a fazer nada;)
Momo
Muito obrigado por suas respostas! Você conhece alguma maneira de comparar modelos de quase-poisson e binomial negativo? Na maioria dos livros, eles apresentam os modelos, mas não explicam como escolher entre eles.
Antonin
11
A partir da saída, parece que você está ajustando 53-17 = 16 parâmetros para 53 + 1 = 54 pontos de dados; isto está certo? Em caso afirmativo, qualquer método que se baseie em aproximações assintóticas, incluindo o uso de glm()e glm.nb()é passível de fornecer inferência mal calibrada; seria razoável esperar que a precisão fosse exagerada. Seria útil saber mais sobre por que você deseja fazer essa regressão; é possível usar métodos que apresentem melhor desempenho em pequenas situações de amostra.
Você está certo, é provável que esses dados estejam superdispersos. Quasipoisson é um remédio: estima também um parâmetro de escala (que é fixo para modelos de poisson, pois a variação também é a média) e fornecerá melhor ajuste. No entanto, não há mais probabilidade máxima do que você está fazendo e determinados testes e índices de modelo não podem ser usados. Uma boa discussão pode ser encontrada em Venables e Ripley, Modern Applied Statistics with S (Seção 7.5) .
Uma alternativa é usar um modelo binomial negativo, por exemplo, a
glm.nb()
função no pacoteMASS
.fonte
glm()
eglm.nb()
é passível de fornecer inferência mal calibrada; seria razoável esperar que a precisão fosse exagerada. Seria útil saber mais sobre por que você deseja fazer essa regressão; é possível usar métodos que apresentem melhor desempenho em pequenas situações de amostra.