Alguém pode me dizer como interpretar os gráficos de 'resíduos versus ajustado', 'q-q normal', 'localização da escala' e 'resíduos versus alavancagem'? Estou instalando um GLM binomial, salvando-o e plotando-o.
30
Alguém pode me dizer como interpretar os gráficos de 'resíduos versus ajustado', 'q-q normal', 'localização da escala' e 'resíduos versus alavancagem'? Estou instalando um GLM binomial, salvando-o e plotando-o.
Respostas:
R
não possui umplot.glm()
método distinto . Quando você ajustaglm()
e executa um modeloplot()
, ele chama ? Plot.lm , que é apropriado para modelos lineares (isto é, com um termo de erro normalmente distribuído).Em geral, o significado dessas plotagens (pelo menos para modelos lineares) pode ser aprendido em vários segmentos existentes no CV (por exemplo: Residuais vs. Ajustados ; qq-plot em vários locais: 1 , 2 , 3 ; Scale-Location ; Residuals vs Alavancagem ). No entanto, essas interpretações geralmente não são válidas quando o modelo em questão é uma regressão logística.
Mais especificamente, as parcelas geralmente 'parecem engraçadas' e levam as pessoas a acreditar que há algo errado com o modelo quando está perfeitamente bem. Podemos ver isso observando esses gráficos com algumas simulações simples, nas quais sabemos que o modelo está correto:
Agora vamos ver os gráficos que obtemos
plot.lm()
:Tanto os gráficos
Residuals vs Fitted
quanto osScale-Location
gráficos parecem ter problemas com o modelo, mas sabemos que não há. Esses gráficos, destinados a modelos lineares, são simplesmente enganosos quando usados com um modelo de regressão logística.Vejamos outro exemplo:
Agora todas as parcelas parecem estranhas.
Então, o que esses gráficos mostram?
Residuals vs Fitted
plotagem pode ajudá-lo a ver, por exemplo, se há tendências curvilíneas que você perdeu. Mas o ajuste de uma regressão logística é curvilíneo por natureza, para que você possa ter tendências de aparência estranha nos resíduos sem nada de errado.Normal Q-Q
plotagem ajuda a detectar se seus resíduos são normalmente distribuídos. Mas os resíduos de desvio não precisam ser normalmente distribuídos para que o modelo seja válido; portanto, a normalidade / não normalidade dos resíduos não necessariamente informa nada.Scale-Location
plotagem pode ajudá-lo a identificar a heterocedasticidade. Mas os modelos de regressão logística são praticamente heterocedásticos por natureza.Residuals vs Leverage
pode ajudar a identificar possíveis discrepâncias. Mas os outliers na regressão logística não se manifestam necessariamente da mesma maneira que na regressão linear, portanto esse gráfico pode ou não ser útil para identificá-los.A lição simples de levar para casa aqui é que esses gráficos podem ser muito difíceis de usar para ajudar você a entender o que está acontecendo com seu modelo de regressão logística. Provavelmente, é melhor que as pessoas não analisem essas parcelas ao executar a regressão logística, a menos que tenham um conhecimento considerável.
fonte
Leia mais sobre premissas de regressão, pois em muitos aspectos existem semelhantes (por exemplo , aqui , ou tutorial sobre regressão em R aqui ).
fonte