Sobredispersão e Subdispersão em Regressão Binomial / Poisson Negativa

11

Eu estava realizando uma regressão de Poisson no SAS e descobri que o valor do qui-quadrado de Pearson dividido pelos graus de liberdade era de cerca de 5, indicando uma super-dispersão significativa. Então, eu ajustei um modelo binomial negativo com proc genmod e descobri que o valor do qui-quadrado de Pearson dividido pelos graus de liberdade é 0,80. Isso agora é considerado sub-disperso? Se sim, como lidar com isso? Eu li muito sobre super-dispersão e acredito que sei como lidar com isso, mas as informações sobre como lidar ou determinar se há sub-dispersão são escassas. Alguém pode ajudar?

Obrigado.

Estatísticas
fonte

Respostas:

17

Para uma distribuição de Poisson com média a variação também é . Dentro da estrutura de modelos lineares generalizados, isso implica que a função de variância é para o modelo de Poisson. Essa suposição de modelo pode estar errada por vários motivos diferentes. Dados de contagem super-dispersos com uma variação maior do que a distribuição de Poisson determina, por exemplo, são frequentemente encontrados. μ V ( μ ) = μμμ

V(μ)=μ

Desvios da suposição de variância podem, em um contexto de regressão, assumir várias formas. A mais simples é que a função de variação é igual a com um parâmetro de dispersão . Este é o modelo quase-Poisson. Ele fornecerá o mesmo modelo de regressão ajustado, mas a inferência estatística (valores- e intervalos de confiança) é ajustada para super ou sub-dispersão usando um parâmetro de dispersão estimado.ip > 0 p

V(μ)=ψμ
ψ>0p

A forma funcional da função de variação também pode estar errada. Poderia ser um polinômio de segundo grau digamos. Exemplos incluem o binomial, o binomial negativo e o modelo gama. A escolha de qualquer um desses modelos como alternativa ao modelo de Poisson afetará o modelo de regressão ajustado, bem como a inferência estatística subsequente. Para a distribuição binomial negativa com o parâmetro de forma a função de variação é Podemos ver com isso que, se , obtemos a função de variação para a distribuição de Poisson.λ > 0 V ( μ ) = μ ( 1 + μ

V(μ)=aμ2+bμ+c,
λ>0λ
V(μ)=μ(1+μλ).
λ

Para determinar se a função de variância para o modelo de Poisson é apropriada para os dados, podemos estimar o parâmetro de dispersão conforme o OP sugere e verificar se é aproximadamente 1 (talvez usando um teste formal). Tal teste não sugere uma alternativa específica, mas é mais claramente entendido dentro do modelo quase-Poisson. Para testar se a forma funcional da função de variância é apropriada, podemos construir um teste de razão de verossimilhança do modelo de Poisson ( ) contra o modelo binomial negativo ( ). Observe que ele tem uma distribuição fora do padrão sob a hipótese nula. Ou podemos usar métodos baseados em AIC em geral para comparar modelos não aninhados. Testes baseados em regressão para superdispersão no modelo de Poissonλ < λ=λ< explora uma classe de testes para funções gerais de variação.

No entanto, eu recomendaria, em primeiro lugar, estudar gráficos residuais, por exemplo, um gráfico dos resíduos de Pearson ou de desvio (ou seu valor ao quadrado) em relação aos valores ajustados. Se a forma funcional da variação estiver incorreta, você verá isso como uma forma de funil (ou uma tendência para os resíduos quadrados) no gráfico residual. Se a forma funcional estiver correta, ou seja, sem funil ou tendência, ainda poderá haver super ou sub-dispersão, mas isso pode ser explicado pela estimativa do parâmetro de dispersão. O benefício do gráfico residual é que ele sugere mais claramente do que um teste o que há de errado com a função de variação.

No caso concreto do OP, não é possível dizer se 0,8 indica sub-dispersão das informações fornecidas. Em vez de focar nas estimativas 5 e 0,8, sugiro, em primeiro lugar, investigar o ajuste das funções de variância do modelo de Poisson e do modelo binomial negativo. Uma vez determinada a forma funcional mais apropriada da função de variância, um parâmetro de dispersão pode ser incluído, se necessário, em qualquer um dos modelos para ajustar a inferência estatística para qualquer super ou sub-dispersão adicional. Como fazer isso facilmente no SAS, por exemplo, infelizmente não é algo que eu possa ajudar.

NRH
fonte
2
+1, esta é uma boa informação geral. Pode ser mais útil para o OP se você abordou especificamente as perguntas explícitas do OP: (1) está 0,8 sub-disperso; E (2) se sim, como lidar com isso.
gung - Restabelece Monica
@gung, editei a resposta para dar conselhos mais específicos. Você não pode determinar se 0,8 é significativamente menor que 1 a partir das informações disponíveis, e o IMHO se concentra em saber se o parâmetro de dispersão é 1 é um desvio. Minha edição explica o que eu acho que o OP deve focar.
NRH