Como entender os resíduos padronizados na análise de regressão?

9

De acordo com a Análise de regressão por exemplo , o resíduo é a diferença entre a resposta e o valor previsto; então, diz-se que todo resíduo tem variação diferente, portanto, precisamos considerar resíduos padronizados.

Mas a variação é para um grupo de valores, como um único valor pode ter variação?

ccshao
fonte
2
Seria útil citar o livro diretamente ou (se estiver disponível on-line) para fornecer um link para ele. Muito pode se perder se uma única palavra for retirada de ordem ou fora de contexto. (Por exemplo, os resíduos geralmente são definidos como a diferença entre previsão e resposta, e não o contrário.)
whuber
Variáveis ​​aleatórias únicas têm variações. Os resíduos são variáveis ​​aleatórias - são funções dos dados. Portanto, resíduos únicos (padronizados ou não) apresentam variações.
guest
#whuber O livro é "Regression.Analysis.by.Example", página, 89. Discutiu tipos de resíduos. residual comum é predição de resposta. @ Guest "Variáveis ​​aleatórias únicas têm variações", isto é o que eu não entendo, variáveis ​​é uma propriedade para uma amostra, não é? por que o valor único em uma amostra (como um resíduo) tem variação?
ccshao
O livro tem um autor ...? Isso geralmente facilita a localização. Eu acho que você está confundindo a variação da amostra e a variação da população. O resíduo é desconhecido antes da realização da experiência. A resposta é aleatória e o residual também, pois é uma função da resposta. Quando falamos da variação do residual, falamos sobre a variação da variável aleatória subjacente.
MånsT
desculpe pelo transtorno, os autores são SAMPRIT CHATTEFUEE e ALI S. HADI, Regression Analysis by Example, quarta edição.
ccshao

Respostas:

9

Eu diria que um número individual (como um residual), que resultou de um sorteio aleatório de uma distribuição de probabilidade, é um valor realizado , não uma variável aleatória . Da mesma forma, eu diria que o conjunto de residuais, calculado a partir de seus dados e seu modelo se encaixa usando , é um conjunto de valores realizados. Esse conjunto de números pode ser vagamente conceitualizado como desenhos independentes de uma distribuição subjacente ~ . (Infelizmente, no entanto, existem várias complexidades adicionais aqui. Por exemplo, você realmente não teme = y - y ε N ( μ , σ 2 ) N e Σ e i = 0 Σ x i e i = 0Ne=yy^ϵN(μ,σ2)Ninformações independentes, porque os resíduos, , devem atender a duas condições: e ) eei=0xiei=0

Agora, dado algum conjunto de números, sejam eles residuais ou o que quer que seja, certamente é verdade que eles têm uma variação, , mas isso é desinteressante. O que nos preocupa é poder dizer algo sobre o processo de geração de dados (por exemplo, estimar a variação da distribuição da população). Usando a fórmula anterior, poderíamos fornecer uma aproximação substituindo pelos graus residuais de liberdade, mas essa pode não ser uma boa aproximação. Este é um tópico que pode se complicar muito rapidamente, mas algumas razões possíveis podem ser a heterocedasticidade (ou seja, que a variação da população difere nos diferentes níveis de ) e a presença de valores extremosN X(eie¯)2/NNx(ou seja, que um determinado resíduo é extraído de uma população completamente diferente). Quase certamente, na prática, você não será capaz de estimar a variação da população da qual um outlier foi extraído, mas, no entanto, em teoria, ele tem uma variação. Suspeito que algo desse tipo seja o que os autores tinham em mente, no entanto, devo observar que não li esse livro.

Atualização: Ao reler a pergunta, suspeito que a citação possa estar se referindo à maneira como o valor de um ponto influencia a linha de regressão ajustada e, portanto, o valor do resíduo associado a esse ponto. A principal idéia a entender aqui é a alavancagem . Discuto esses tópicos na minha resposta aqui: Interpretando plot.lm () . x

- Reinstate Monica
fonte
11
Obrigado! A alavancagem é a coisa que eu não entendi antes. Não existe ou há pouco efeito de regressão para dados que possuem x próximo a média (x), portanto, alta variação.
ccshao