Coeficientes idênticos estimados no modelo de Poisson vs Quasi-Poisson

12

Na modelagem de dados de contagem de solicitações em um ambiente de seguro, comecei com Poisson, mas depois notei superdispersão. Um Quasi-Poisson modelou melhor a maior relação média-variância que o Poisson básico, mas notei que os coeficientes eram idênticos nos modelos de Poisson e Quasi-Poisson.

Se isso não é um erro, por que isso está acontecendo? Qual é o benefício de usar o Quasi-Poisson sobre o Poisson?

Coisas a serem observadas:

  • As perdas subjacentes são excessivas, o que (acredito) impediu o Tweedie de funcionar - mas foi a primeira distribuição que tentei. Também examinei os modelos NB, ZIP, ZINB e Hurdle, mas ainda assim achei o Quasi-Poisson o mais adequado.
  • Testei a super-dispersão via dispersiontest no pacote AER. Meu parâmetro de dispersão foi de aproximadamente 8,4, com valor de p na magnitude 10 ^ -16.
  • Estou usando glm () com family = poisson ou quasipoisson e um link de log para o código.
  • Ao executar o código Poisson, saio com avisos de "In dpois (y, mu, log = TRUE): não inteiro x = ...".

Threads úteis da SE de acordo com a orientação de Ben:

  1. Matemática Básica de Offsets na regressão de Poisson
  2. Impacto das compensações nos coeficientes
  3. Diferença entre usar Exposição como Covariada vs Deslocamento
Frank H.
fonte
Uma distribuição Tweedie não seria uma idéia melhor?
Duffymo
Tentei o Tweedie desde o início, mas nossos dados de perda não são básicos, mas em excesso. Também tentei os modelos Binomial Negativo, ZIP e Obstáculo para resolver a dispersão da contagem.
Frank H.
1
você pode explicar um pouco mais sobre a origem dos valores não inteiros nos seus dados?
quer
6
você não deve modelar frequências / taxas calculando taxas de counts/exposure. Em vez disso, você deve adicionar um offset(log(exposure))termo offset ( ) aos seus modelos.
quer
1
É prático, embora seja mais importante ao fazer a modelagem de Poisson (não quase-Poisson). Não conheço uma boa referência de antemão; se você não encontrar uma resposta relevante aqui no CrossValidated, seria uma boa pergunta de acompanhamento.
Ben Bolker 14/10

Respostas:

25

χ2p

p

  • Como você comentou acima, existem muitas abordagens diferentes para a super-dispersão (Tweedie, diferentes parametrizações binomiais negativas, quase-probabilidade, inflação zero / alteração).
  • Com um fator de super-dispersão de> 5 (8,4), eu me preocuparia um pouco com o fato de estar sendo conduzido por algum tipo de ajuste inadequado do modelo (valores extremos, inflação zero [que vejo que você já tentou], não linearidade) do que representar a heterogeneidade geral. Minha abordagem geral é a exploração gráfica dos dados brutos e o diagnóstico de regressão ...
Ben Bolker
fonte
Muito útil. Vejo agora que os valores de p para as variáveis ​​e níveis de variáveis ​​no Poisson são muito mais estatisticamente significativos do que no Quasi-Poisson, devido ao dimensionamento que você mencionou. Eu testei para outliers, mas não achei que isso fosse um problema. Quais podem ser outros problemas que estão sendo mascarados por superdispersão ou exemplos de tais abordagens para encontrar esses problemas?
Frank H.
Principalmente a não linearidade das respostas na escala de link (log); verifique os gráficos de resíduos vs ajustados e os gráficos de resíduos versus variáveis ​​preditoras para ver se há padrões.
quer
1
+1 Bem definido! Eu realmente aprecio a clareza do seu primeiro parágrafo.
Alexis #