R em ação (Kabacoff, 2011) sugere a seguinte rotina para testar sobredispersão em uma regressão logística:
Ajuste a regressão logística usando distribuição binomial:
model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
family=binomial(), data=iris)
Ajuste a regressão logística usando distribuição quase-binomial:
model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width,
family=quasibinomial(), data=iris)
Use o qui-quadrado para testar a sobredispersão:
pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual,
model_binom$df.residual, lower = F)
# [1] 0.7949171
Alguém poderia explicar como e por que a distribuição qui-quadrado está sendo usada para testar aqui a sobredispersão? O valor p é 0,79 - como isso mostra que a super-dispersão não é um problema no modelo de distribuição binomial?
r
regression
distributions
logistic
overdispersion
luciano
fonte
fonte
Respostas:
A abordagem descrita requer cálculos desnecessários. A estatística do teste é apenas
Isso é exatamente igual à estatística do teste de Pearson por falta de ajuste, portanto, possui distribuição qui-quadrado.χ2
A super-dispersão, como tal, não se aplica aos dados de Bernoulli. Um grande valor de pode indicar falta de covariáveis ou poderes, termos de interações ou dados devem ser agrupados. Um valor p de 0,79 indica que o teste falhou em encontrar problemas.χ2
fonte
sum(residuals(model_binom, type = "deviance")^2)/model_binom$df.residual