Interpretando plot.lm ()

89

Eu tinha uma pergunta sobre como interpretar os gráficos gerados pelo gráfico (lm) em R. Eu queria saber se vocês poderiam me dizer como interpretar os gráficos de localização em escala e alavancagem-residual? Quaisquer comentários serão apreciados. Assumir conhecimentos básicos de estatística, regressão e econometria.

Convidado
fonte
você deu uma olhada aqui ?
User603 5/05
6
e aqui (da página 72 em diante), aqui .
COOLSerdash

Respostas:

139

Conforme indicado na documentação , plot.lm()pode retornar 6 gráficos diferentes:

[1] um gráfico de resíduos em relação aos valores ajustados, [2] um gráfico de Localização da escala de sqrt (| resíduos |) em relação aos valores ajustados, [3] um gráfico de QQ normal, [4] um gráfico das distâncias de Cook versus os rótulos de linha, [5] um gráfico de resíduos contra alavancagens e [6] um gráfico das distâncias de Cook contra alavancagem / (1 alavancagem). Por padrão, os três e 5 primeiros são fornecidos. ( minha numeração )

Os gráficos [1] , [2] , [3] e [5] são retornados por padrão. A interpretação [1] é discutida no CV aqui: Interpretando resíduos versus plotagem ajustada para verificar as suposições de um modelo linear . Expliquei a suposição de homoscedasticidade e os gráficos que podem ajudá-lo a avaliá-lo (incluindo gráficos de localização em escala [2] ) no currículo aqui: O que significa ter variação constante em um modelo de regressão linear? Eu discuti qq- plot [3] no CV aqui: QQ plot não coincide com histograma e aqui: PP- plot vs. QQ- plot . Também há uma visão geral muito boa aqui: Como interpretar um gráfico QQ? Então, o que resta é basicamente apenas entender [5] , o gráfico de alavancagem residual.

Para entender isso, precisamos entender três coisas:

  • alavancagem,
  • resíduos padronizados e
  • Distância de Cook.

(X¯, Y¯)Xseja que os resultados obtidos sejam conduzidos por alguns pontos de dados; é isso que esse gráfico pretende ajudar a determinar.

XX¯X

N

Com esses fatos em mente, considere os gráficos associados a quatro situações diferentes:

  1. um conjunto de dados onde está tudo bem
  2. um conjunto de dados com um ponto residual de alta alavancagem, mas com baixa padronização
  3. um conjunto de dados com um ponto residual de baixa alavancagem, mas altamente padronizado
  4. um conjunto de dados com um ponto residual de alta alavancagem e alto padrão

insira a descrição da imagem aqui insira a descrição da imagem aqui

(X¯, Y¯)21

                              leverage std.residual   cooks.d
high leverage,  low residual 0.3814234    0.0014559 0.0000007
low leverage,  high residual 0.0476191    3.4456341 0.2968102
high leverage, high residual 0.3814234   -3.8086475 4.4722437

Abaixo está o código que eu usei para gerar esses gráficos:

set.seed(20)

x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)

x2 = c(x1, 30);        y2 = c(y1, 20.8)
x3 = c(x1, 19.44);     y3 = c(y1, 20.8)
x4 = c(x1, 30);        y4 = c(y1, 10)

* Para ajudar a entender como a regressão OLS procura encontrar a linha que minimiza as distâncias verticais entre os dados e a linha, veja minha resposta aqui: Qual é a diferença entre a regressão linear em y com xex com y?

ung
fonte
Boa resposta que aponta em todas as instruções de gravação para aprender mais. (Tenho que perguntar por que há tanta escassez de completa e explicações claras sobre estas parcelas)
theforestecologist
Embora aqui esteja um exemplo de uma breve explicação consolidada para cada parcela.
Theforestecologist