Teste de sobredispersão em regressão logística

8

R em ação (Kabacoff, 2011) sugere a seguinte rotina para testar sobredispersão em uma regressão logística:

Ajuste a regressão logística usando distribuição binomial:

model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
                   family=binomial(), data=iris)

Ajuste a regressão logística usando distribuição quase-binomial:

model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width, 
                           family=quasibinomial(), data=iris)

Use o qui-quadrado para testar a sobredispersão:

pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual, 
       model_binom$df.residual, lower = F)
# [1] 0.7949171

Alguém poderia explicar como e por que a distribuição qui-quadrado está sendo usada para testar aqui a sobredispersão? O valor p é 0,79 - como isso mostra que a super-dispersão não é um problema no modelo de distribuição binomial?

luciano
fonte
2
É muito difícil não se ajustar à distribuição de Bernoulli, a menos que você tenha observações correlacionadas. E o ajuste que você suspeita ser inadequado?
Frank Harrell
Por observações correlatas, você quer dizer que cada estudo de Bernoulli não é independente?
luciano 26/03
1
Sim, por exemplo, correlação serial ou dentro do cluster; ensaios não independentes.
Frank Harrell

Respostas:

4

A abordagem descrita requer cálculos desnecessários. A estatística do teste é apenas

sum(residuals(model_binom, type = "deviance")^2)

Isso é exatamente igual à estatística do teste de Pearson por falta de ajuste, portanto, possui distribuição qui-quadrado.χ2

A super-dispersão, como tal, não se aplica aos dados de Bernoulli. Um grande valor de pode indicar falta de covariáveis ​​ou poderes, termos de interações ou dados devem ser agrupados. Um valor p de 0,79 indica que o teste falhou em encontrar problemas.χ2

olé
fonte
4
A resposta acima não deve ser modificada da seguinte maneira? sum(residuals(model_binom, type = "deviance")^2)/model_binom$df.residual
Steve VW