Interpretação da plotagem (glm.model)

30

Alguém pode me dizer como interpretar os gráficos de 'resíduos versus ajustado', 'q-q normal', 'localização da escala' e 'resíduos versus alavancagem'? Estou instalando um GLM binomial, salvando-o e plotando-o.

verão
fonte
4
Você sabe como interpretar esses gráficos ao lidar com uma regressão linear regular? Porque esse deve ser o seu ponto de partida.
Steve S

Respostas:

55

Rnão possui um plot.glm()método distinto . Quando você ajusta glm()e executa um modelo plot(), ele chama ? Plot.lm , que é apropriado para modelos lineares (isto é, com um termo de erro normalmente distribuído).

Em geral, o significado dessas plotagens (pelo menos para modelos lineares) pode ser aprendido em vários segmentos existentes no CV (por exemplo: Residuais vs. Ajustados ; qq-plot em vários locais: 1 , 2 , 3 ; Scale-Location ; Residuals vs Alavancagem ). No entanto, essas interpretações geralmente não são válidas quando o modelo em questão é uma regressão logística.

Mais especificamente, as parcelas geralmente 'parecem engraçadas' e levam as pessoas a acreditar que há algo errado com o modelo quando está perfeitamente bem. Podemos ver isso observando esses gráficos com algumas simulações simples, nas quais sabemos que o modelo está correto:

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

Agora vamos ver os gráficos que obtemos plot.lm():

insira a descrição da imagem aqui

Tanto os gráficos Residuals vs Fittedquanto os Scale-Locationgráficos parecem ter problemas com o modelo, mas sabemos que não há. Esses gráficos, destinados a modelos lineares, são simplesmente enganosos quando usados ​​com um modelo de regressão logística.

Vejamos outro exemplo:

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

insira a descrição da imagem aqui

Agora todas as parcelas parecem estranhas.

Então, o que esses gráficos mostram?

  • A Residuals vs Fittedplotagem pode ajudá-lo a ver, por exemplo, se há tendências curvilíneas que você perdeu. Mas o ajuste de uma regressão logística é curvilíneo por natureza, para que você possa ter tendências de aparência estranha nos resíduos sem nada de errado.
  • A Normal Q-Qplotagem ajuda a detectar se seus resíduos são normalmente distribuídos. Mas os resíduos de desvio não precisam ser normalmente distribuídos para que o modelo seja válido; portanto, a normalidade / não normalidade dos resíduos não necessariamente informa nada.
  • A Scale-Locationplotagem pode ajudá-lo a identificar a heterocedasticidade. Mas os modelos de regressão logística são praticamente heterocedásticos por natureza.
  • O Residuals vs Leveragepode ajudar a identificar possíveis discrepâncias. Mas os outliers na regressão logística não se manifestam necessariamente da mesma maneira que na regressão linear, portanto esse gráfico pode ou não ser útil para identificá-los.

A lição simples de levar para casa aqui é que esses gráficos podem ser muito difíceis de usar para ajudar você a entender o que está acontecendo com seu modelo de regressão logística. Provavelmente, é melhor que as pessoas não analisem essas parcelas ao executar a regressão logística, a menos que tenham um conhecimento considerável.

- Reinstate Monica
fonte
5
Boa sorte, esta é uma resposta incrível.
d8aninja
@gung Você poderia dizer o que podemos fazer se for um glm? Existe uma alternativa para QQ, Residual vs Cabido? Por exemplo eu tracei um link poisson GLM, mas eu não sei como analisar se é bom ajuste
GRS
2
@GRS, tente ler isso .
gung - Restabelece Monica
@ Todas as suas respostas são detalhadas e claras. Além de ler de várias fontes, incluindo este site, você pode consultar um ou dois bons livros / sites para obter 'experiência considerável' na compreensão de gráficos de diagnóstico? Entendo que poucas habilidades podemos obter apenas com a prática e a experiência, mas se algum livro / site específico abordar os detalhes em profundidade, se você puder se referir, seria de grande ajuda.
Dr Nisha Arora 27/11
@DrNishaArora, na verdade não estou ciente. Existem alguns livros relevantes para a LR, mas eles não vão gastar muito tempo com esses enredos, pelas razões expostas.
gung - Restabelece Monica
0
  1. Residuais versus ajustados - não deve haver padrões fortes (padrões leves não são um problema, consulte a resposta de @gung) e não há discrepâncias, os resíduos devem ser distribuídos aleatoriamente em torno de zero.
  2. QQ normal - os resíduos devem girar em torno da linha diagonal, ou seja, devem ser normalmente distribuídos (consulte o wiki para o gráfico de QQ ). Esse gráfico ajuda a verificar se eles são aproximadamente normais.
  3. Localização da escala - como você pode ver, no eixo Y também existem resíduos (como em Residuals versus plotagem ajustada), mas eles são dimensionados, por isso é semelhante a (1), mas em alguns casos funciona melhor.
  4. Resíduos vs Alavancagem - ajuda a diagnosticar casos periféricos. Como nos gráficos anteriores, os casos extremos são numerados, mas nesse gráfico, se houver casos muito diferentes do restante dos dados, eles são plotados abaixo de linhas vermelhas finas (consulte o wiki na distância de Cook ).

Leia mais sobre premissas de regressão, pois em muitos aspectos existem semelhantes (por exemplo , aqui , ou tutorial sobre regressão em R aqui ).

Tim
fonte
2
Esta resposta está incorreta no contexto da glm, como também descrito por @gung, na resposta acima. Se você estiver procurando uma resposta para esta pergunta, IGNORE ESTA RESPOSTA. Se você é o autor desta resposta, confira a resposta acima por gung. Se concordar, considere excluir essa resposta, pois é enganosa.
Colin
@colin would you like to comment what exactly is wrong in your opinion with this answer? The only difference between mine and the second answer is that gung goes into more details...
Tim
3
você descreve como esses gráficos devem ser usados ​​no contexto de regressão linear. gung descreve por que essas interpretações falham nesse caso, porque estão sendo aplicadas a um modelo binomial glm. Portanto, se um usuário interpretou esses gráficos de diagnóstico como você sugere (e suas sugestões seriam úteis no caso de lm), eles concluirão erroneamente que seu modelo viola as suposições do glm, quando na realidade não o faz.
Colin
você escreve: "Residuais versus ajustados - não deve haver padrões nem discrepâncias, os resíduos devem ser distribuídos aleatoriamente em torno de 0." gung escreve: "O gráfico Residuais versus Ajustados pode ajudá-lo a ver, por exemplo, se há tendências curvilíneas que você perdeu. Mas o ajuste de uma regressão logística é curvilíneo por natureza, para que você possa ter tendências de aparência estranha nos resíduos sem nada errado." ... um de vocês deve estar errado.
precisa
2
Concordo que isso não é preto e branco, mas há muitos casos em que existem fortes tendências, mas o modelo especificado é totalmente apropriado sob as premissas do glm específico. Portanto, afirmando: "não deve haver padrões nem discrepâncias, os resíduos devem ser distribuídos aleatoriamente em torno de 0". é facilmente interpretado que, se houver um padrão, você violou as suposições do modelo. Este não é o caso.
Colin