Resíduos estudantis v / s resíduos padronizados no modelo lm

10

"Resíduos estudantis" e "resíduos padronizados" são os mesmos nos modelos de regressão? Eu construí um modelo de regressão linear em R e queria plotar o gráfico de resíduos Studentized v / s valores ajustados, mas não encontrei uma maneira automatizada de fazer isso em R.

Suponha que eu tenho um modelo

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

o uso plot(lm.fit)não fornece nenhum gráfico de resíduos estudados versus valores ajustados, mas fornece um gráfico de resíduos padronizados versus valores ajustados.

Eu usei plot(lm.fit$fitted.values,studres(lm.fit)e ele irá plotar o gráfico desejado. Então, só quero confirmar que estou indo no caminho certo e os resíduos estudantilizados e padronizados não são a mesma coisa. Se forem diferentes, forneça um guia para calculá-los e suas definições. Eu procurei na net e achei um pouco confuso.

aprendiz
fonte
2
+1 Ele está confundindo porque (a) na verdade esses tipos de resíduos diferentes, mas (b) diferentes autoridades não concordar com o que chamá-los! Por exemplo, a Rterminologia é o oposto de Montgomery, Peck e Vining (um livro de regressão popular que existe há 35 anos). Portanto, tenha cuidado, e certifique-se de estudar a Rdocumentação e, se necessário, o código fonte, em vez de confiar no que você acha que a terminologia significa.
whuber

Respostas:

11

Não, resíduos estudados e resíduos padronizados são conceitos diferentes (mas relacionados).

De fato, o R fornece funções internas rstandard()e rstudent()como parte das medidas de influência . O mesmo pacote interno fornece muitas funções semelhantes para alavancagem, a distância de Cook etc. rstudent()é essencialmente o mesmo MASS::studres()que você pode verificar por si mesmo:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

Os resíduos padronizados são uma maneira de estimar o erro de um ponto de dados específico que leva em consideração a alavancagem / influência do ponto. Eles são chamados de "resíduos estudados internamente".

ri=eis(ei)=eiMSE(1hii)

A motivação por trás dos resíduos padronizados é que, embora nosso modelo tenha assumido homoscedasticidade com um termo de erro iid com variação fixa , a distribuição, os resíduos não podem ser identificados porque o a soma dos resíduos é sempre exatamente zero.ϵiN(0,σ2)ei

Os resíduos estudados para qualquer ponto de dados são calculados a partir de um modelo adequado a todos os outros pontos de dados, exceto o em questão. Eles são chamados de "resíduos residuais estudados externamente", "resíduos excluídos" ou "resíduos com facas".

Isso parece computacionalmente difícil ( parece que teríamos que ajustar um novo modelo para cada ponto), mas, na verdade, há uma maneira de computá-lo apenas do modelo original sem reajustar. Se o resíduo padronizado for , o resíduo estudado será:riti

ti=ri(nk2nk1ri2)1/2,

A motivação por trás dos resíduos estudados vem do seu uso em testes externos. Se suspeitarmos que um ponto é discrepante, ele não foi gerado a partir do modelo assumido, por definição. Portanto, seria um erro - uma violação de premissas - incluir essa discrepância na adaptação do modelo. Os resíduos estudados são amplamente utilizados na detecção prática de outlier.

Os resíduos estudados também têm a propriedade desejável de que, para cada ponto de dados, a distribuição do resíduo será distribuída em t, assumindo que as suposições de normalidade do modelo de regressão original foram atendidas. (Os resíduos padronizados não têm uma distribuição tão agradável.)

Por fim, para solucionar quaisquer preocupações de que a biblioteca R possa estar seguindo uma nomenclatura diferente da acima, a documentação do R declara explicitamente que eles usam "padronizado" e "estudado" no exato mesmo sentido descrito acima.

Funções rstandarde rstudentforneça os resíduos padronizados e estudados, respectivamente. (Eles re-normalizam os resíduos para que tenham variação de unidade, usando uma medida geral e deixe de fora a variação de erro, respectivamente.)

olooney
fonte