Para regressão linear, podemos verificar os gráficos de diagnóstico (gráficos de resíduos, gráficos de QQ normal, etc.) para verificar se as suposições de regressão linear são violadas.
Para regressão logística, estou tendo problemas para encontrar recursos que expliquem como diagnosticar o ajuste do modelo de regressão logística. Desenterrar algumas notas do curso para GLM, simplesmente afirma que a verificação dos resíduos não é útil para realizar o diagnóstico de um ajuste de regressão logística.
Olhando pela Internet, também parece haver vários procedimentos de "diagnóstico", como verificar o desvio do modelo e realizar testes qui-quadrado, mas outras fontes afirmam que isso é inapropriado e que você deve executar uma boa adequação ao Hosmer-Lemeshow teste. Depois, encontro outras fontes que afirmam que esse teste pode ser altamente dependente dos agrupamentos e valores de corte reais (pode não ser confiável).
Então, como se deve diagnosticar a regressão logística?
fonte
Respostas:
Algumas técnicas mais recentes que me deparei para avaliar o ajuste de modelos de regressão logística vêm de revistas de ciências políticas:
Ambas as técnicas pretendem substituir os testes de qualidade de ajuste (como Hosmer e Lemeshow) e identificar possíveis erros de especificação (em particular a não linearidade nas variáveis incluídas na equação). Isso é particularmente útil, pois as medidas típicas de ajuste do quadrado R são frequentemente criticadas .
Ambos os trabalhos acima utilizam probabilidades previstas versus resultados observados em parcelas - evitando um pouco a questão clara do que é um resíduo nesses modelos. Exemplos de resíduos podem ser uma contribuição para a probabilidade logarítmica ou resíduos de Pearson (acredito que existem muitos mais). Outra medida que geralmente interessa (embora não seja residual) são as da DFBeta (a quantidade que uma estimativa de coeficiente muda quando uma observação é excluída do modelo). Veja exemplos em Stata para esta página da UCLA em Diagnóstico de regressão logística, juntamente com outros procedimentos de diagnóstico em potencial.
Não o tenho à mão, mas acredito que os modelos de regressão de J. Scott Long para variáveis dependentes categóricas e limitadas entram em detalhes suficientes de todas essas diferentes medidas de diagnóstico de uma maneira simples.
fonte
A questão não estava suficientemente motivada. Deve haver um motivo para executar o diagnóstico do modelo, como
Exceto por verificar coisas ortogonais à especificação de regressão algébrica (por exemplo, examinar a distribuição de resíduos em modelos lineares comuns), o diagnóstico de modelo pode criar tantos problemas quanto resolver na minha opinião. Isto é especialmente verdade no modelo de logística binária, uma vez que não possui nenhuma premissa distributiva.
Portanto, geralmente é melhor gastar tempo especificando o modelo, especialmente para não assumir linearidade para variáveis consideradas fortes para as quais nenhuma evidência anterior sugere linearidade. Em algumas ocasiões, você pode pré-especificar um modelo que deve se ajustar, por exemplo, se o número de preditores for pequeno ou permitir que todos os preditores sejam não lineares e (corretamente) não assumam interações.
Qualquer pessoa que sinta que o diagnóstico do modelo pode ser usado para alterar o modelo deve executar esse processo em um loop de autoinicialização para estimar corretamente as incertezas do modelo induzido.
fonte
Esse segmento é bastante antigo, mas achei que seria útil acrescentar que, desde recentemente, você pode usar o pacote DHARMa R para transformar os resíduos de qualquer GL (M) M em um espaço padronizado. Feito isso, é possível avaliar / testar visualmente problemas residuais, como desvios da distribuição, dependência residual de um preditor, heterocedasticidade ou autocorrelação da maneira normal. Veja a vinheta do pacote para obter exemplos detalhados, além de outras perguntas sobre o CV aqui e aqui .
fonte