Que vantagens os “resíduos estudados internamente” oferecem sobre os resíduos estimados brutos em termos de diagnóstico de pontos de dados influentes em potencial?

10

A razão pela qual pergunto isso é porque parece que os resíduos estudados internamente parecem ter o mesmo padrão que os resíduos estimados brutos. Seria ótimo se alguém pudesse oferecer uma explicação.

Scortchi - Restabelecer Monica
fonte

Respostas:

13

Suponha um modelo de regressão de com matriz de design X (a uma coluna seguido por seus preditores), as previsões y = X ( X ' X ) - 1 X ' Y = H y (onde H é o "hat- matriz "), e os resíduos de e = y - y . O modelo de regressão assume que os verdadeiros erros £ todos têm a mesma variância (homocedasticidade):y=Xβ+ϵX1y^=X(XX)1Xy=HyHe=yy^ϵ

homoskedasticity

V(e)=σ2(IH)eiσ2(1hii)σ2(IH)Hhii

e/(σ1hii)σ e/(σ^1hii)σ^

ϵ

caracal
fonte
As diferenças de definição entre os dois tipos diferentes de resíduos (bem como os resíduos estudados externamente) são claras para mim. Na prática, no entanto, acho que não encontrei casos (pelo menos com meus próprios dados) em que os resíduos estudados internamente têm um padrão distinto em comparação com os resíduos estimados. Por outro lado, os resíduos estudados externamente podem exibir um padrão distinto do que os resíduos estimados. * Não estou dizendo que os dois tipos de resíduos são iguais. Estou me referindo aos seus padrões gerais.
@AlexH. Concordo que a vantagem declarada que acrescentei é teórica . Construir uma situação empírica simulada em que os resíduos brutos são enganosos e os resíduos estudados fornecem uma imagem mais precisa das distribuições condicionais seria uma boa adição.
Caracal
12

Em quais tipos de dados você realizou suas plotagens de teste? Quando todas as suposições se mantêm (ou se aproximam), então eu não esperaria muita diferença entre os resíduos brutos e os resíduos estudantis, a principal vantagem é quando há pontos de alta influência. Considere estes dados (simulados) que têm uma tendência linear positiva e um outlier altamente influente:

insira a descrição da imagem aqui

Aqui está o gráfico dos valores ajustados versus os resíduos brutos:

insira a descrição da imagem aqui

Observe que o valor do resíduo de nosso ponto de influência é mais próximo de 0 do que os resíduos mínimos e máximos do restante dos pontos (não está nos três resíduos brutos mais extremos).

Agora, aqui está o gráfico com os resíduos padronizados (internamente estudados):

insira a descrição da imagem aqui

Nesse gráfico, destaca-se o residual padronizado, porque sua influência foi contabilizada.

x

Greg Snow
fonte