Estou realizando uma regressão logística com variáveis independentes e 123 , 996 observações. Estou avaliando o ajuste do modelo para determinar se os dados atendem às premissas do modelo e produziram o seguinte gráfico de resíduos binados usando o pacote:arm
R
Obviamente, existem alguns sinais ruins nesse gráfico: muitos pontos ficam fora das faixas de confiança e há um padrão distinto para os resíduos. Minha pergunta é - posso anexar esses problemas a suposições específicas do modelo de regressão logística? Por exemplo, posso dizer que há evidências de não linearidade nas variáveis independentes ou de heterocedasticidade? Caso contrário, existem outros diagnósticos que posso produzir para ajudar a identificar onde está o problema?
Com base na resposta de Daniel, parece que o principal problema é que eu estava usando resíduos na escala de logit, mas os valores esperados na escala de resposta. Se eu reproduzir o gráfico com os resíduos também na escala de resposta, fica assim:
o que é muito mais crível.
fonte
Respostas:
Ou estou interpretando mal o seu enredo ou há algum problema. O fato de você ter resíduos negativos para valores próximos a 0 esperados implica que seu modelo está prevendo um valor negativo. Isso não deve ser possível para modelos de regressão logística que apenas prevêem no intervalo (0, 1), a menos que você esteja usando a saída de probabilidades de log do modelo, caso em que o erro residual deve ser indefinido. Como a regressão logística é um método de classificação, é mais útil olhar primeiro para a matriz de confusão. Você também deve especificar se o gráfico é baseado nos dados do trem ou em um conjunto de testes separado.
fonte