Na página 232 de "Um companheiro R para regressão aplicada", Fox e Weisberg observam
Somente a família gaussiana tem variação constante e, em todos os outros GLMs, a variação condicional de y em depende de
Anteriormente, eles observam que a variação condicional do Poisson é e a do binômio é .
Para os gaussianos, essa é uma suposição familiar e frequentemente verificada (homoscedasticidade). Da mesma forma, muitas vezes vejo a variação condicional do Poisson discutida como uma suposição da regressão de Poisson, juntamente com remédios para casos em que ele é violado (por exemplo, binomial negativo, inflado a zero, etc.). No entanto, nunca vejo a variação condicional do binômio discutida como uma suposição na regressão logística. Um pouco de pesquisador no Google não encontrou nenhuma menção a isso.
O que estou perdendo aqui?
EDITAR subsequente ao comentário de @whuber:
Como sugerido, estou procurando por Hosmer & Lemeshow. É interessante e acho que mostra por que eu (e talvez outros) estou confuso. Por exemplo, a palavra "suposição" não está no índice do livro. Além disso, temos isso (p. 175)
Na regressão logística, temos que confiar principalmente na avaliação visual, pois a distribuição dos diagnósticos sob a hipótese de que o modelo se encaixa é conhecida apenas em determinadas configurações limitadas
Eles mostram algumas parcelas, mas concentram-se em parcelas dispersas de vários resíduos versus a probabilidade estimada. Essas plotagens (mesmo para um bom modelo, não possuem o padrão "desajeitado" característico de plotagens semelhantes na regressão OLS e, portanto, são mais difíceis de julgar. Além disso, elas não mostram nada semelhante a plotagens quantílicas.
Em R, plot.lm oferece um bom conjunto padrão de plotagens para avaliar modelos; Não conheço um equivalente para regressão logística, embora possa estar em algum pacote. Isso pode ocorrer porque gráficos diferentes seriam necessários para cada tipo de modelo. O SAS oferece alguns gráficos no PROC LOGISTIC.
Isso certamente parece ser uma área de potencial confusão!
fonte
Respostas:
O pacote DHARMa R resolve esse problema simulando a partir do modelo ajustado para transformar os resíduos de qualquer GL (M) M em um espaço padronizado. Uma vez feito isso, todos os métodos regulares para avaliar visual e formalmente os problemas residuais (por exemplo, gráficos qq, superdispersão, heterocedasticidade, autocorrelação) podem ser aplicados. Veja a vinheta do pacote para obter exemplos detalhados.
Em relação ao comentário de @Otto_K: se a sobredispersão homogênea é o único problema, provavelmente é mais simples usar um efeito aleatório em nível de observação, que pode ser implementado com um GLMM binomial padrão. No entanto, acho que o @PeterFlom também estava preocupado com a heterocedasticidade, ou seja, uma alteração no parâmetro de dispersão com algumas previsões de preditor ou modelo. Isso não será captado / corrigido pelas verificações / correções de super-dispersão padrão, mas você pode vê-lo nos gráficos residuais do DHARMa. Para corrigi-lo, modelar a dispersão em função de outra coisa no JAGS ou STAN é provavelmente a única maneira no momento.
fonte
O tópico que você explica é chamado frequentemente de super-dispersão . No meu trabalho, vi uma possível solução para esse tópico:
Utilizando uma abordagem bayesiana e estimando uma distribuição beta-binomial. Isso tem a grande vantagem de outras distribuições (induzidas por outros anteriores), em ter uma solução de forma fechada.
Referências:
fonte