Interpretando um gráfico residual binned na regressão logística

8

Estou realizando uma regressão logística com variáveis ​​independentes e 123 , 996 observações. Estou avaliando o ajuste do modelo para determinar se os dados atendem às premissas do modelo e produziram o seguinte gráfico de resíduos binados usando o pacote:24123,996arm R

insira a descrição da imagem aqui

Obviamente, existem alguns sinais ruins nesse gráfico: muitos pontos ficam fora das faixas de confiança e há um padrão distinto para os resíduos. Minha pergunta é - posso anexar esses problemas a suposições específicas do modelo de regressão logística? Por exemplo, posso dizer que há evidências de não linearidade nas variáveis ​​independentes ou de heterocedasticidade? Caso contrário, existem outros diagnósticos que posso produzir para ajudar a identificar onde está o problema?


Com base na resposta de Daniel, parece que o principal problema é que eu estava usando resíduos na escala de logit, mas os valores esperados na escala de resposta. Se eu reproduzir o gráfico com os resíduos também na escala de resposta, fica assim:

insira a descrição da imagem aqui

o que é muito mais crível.

M. Berk
fonte
1
Por favor, descreva a teoria estatística que implica que esse gráfico residual é útil.
Frank # # # # Harrell Harrell
@FrankHarrell Veja a discussão da Figura 17 em Gelman et al (2000) "Verificações de diagnóstico para modelos de regressão de dados discretos usando simulações preditivas posteriores" - disponíveis aqui: stat.columbia.edu/~gelman/research/published/dogs.pdf . Também página 97 do Andrew Gelman e Jennifer Hill, análise de dados usando regressão e multinível / modelos hierárquicos, Cambridge University Press
M. Berk
Você pode resumir o que exatamente você está tentando fazer com esses enredos? Para regressão logística binária, não há suposição distributiva e, para suposições de regressão, é melhor ajustar o modelo com flexibilidade (splines de regressão, etc.) ou usar parcelas residuais parciais tradicionais.
Frank # # # # Harr Harrell
@FrankHarrell Editei a pergunta para esclarecer que estou tentando avaliar se os dados atendem às premissas do modelo. Obrigado pela introdução de parcelas residuais parciais, acho que são exatamente isso que estou procurando.
M. Berk

Respostas:

4

Ou estou interpretando mal o seu enredo ou há algum problema. O fato de você ter resíduos negativos para valores próximos a 0 esperados implica que seu modelo está prevendo um valor negativo. Isso não deve ser possível para modelos de regressão logística que apenas prevêem no intervalo (0, 1), a menos que você esteja usando a saída de probabilidades de log do modelo, caso em que o erro residual deve ser indefinido. Como a regressão logística é um método de classificação, é mais útil olhar primeiro para a matriz de confusão. Você também deve especificar se o gráfico é baseado nos dados do trem ou em um conjunto de testes separado.

Daniel Mahler
fonte
Acredito que você identificou corretamente o problema. Eu tenho os resíduos na escala de logit e os valores ajustados na escala de resposta (ou seja, entre 0 e 1). Reproduzi o enredo com os resíduos na escala de resposta e parece muito mais crível.
M. Berk