De acordo com a Análise de regressão por exemplo , o resíduo é a diferença entre a resposta e o valor previsto; então, diz-se que todo resíduo tem variação diferente, portanto, precisamos considerar resíduos padronizados.
Mas a variação é para um grupo de valores, como um único valor pode ter variação?
regression
residuals
ccshao
fonte
fonte
Respostas:
Eu diria que um número individual (como um residual), que resultou de um sorteio aleatório de uma distribuição de probabilidade, é um valor realizado , não uma variável aleatória . Da mesma forma, eu diria que o conjunto de residuais, calculado a partir de seus dados e seu modelo se encaixa usando , é um conjunto de valores realizados. Esse conjunto de números pode ser vagamente conceitualizado como desenhos independentes de uma distribuição subjacente ~ . (Infelizmente, no entanto, existem várias complexidades adicionais aqui. Por exemplo, você realmente não teme = y - y ε N ( μ , σ 2 ) N e Σ e i = 0 Σ x i e i = 0N e=y−y^ ϵ N(μ,σ2) N informações independentes, porque os resíduos, , devem atender a duas condições: e ) e ∑ei=0 ∑xiei=0
Agora, dado algum conjunto de números, sejam eles residuais ou o que quer que seja, certamente é verdade que eles têm uma variação, , mas isso é desinteressante. O que nos preocupa é poder dizer algo sobre o processo de geração de dados (por exemplo, estimar a variação da distribuição da população). Usando a fórmula anterior, poderíamos fornecer uma aproximação substituindo pelos graus residuais de liberdade, mas essa pode não ser uma boa aproximação. Este é um tópico que pode se complicar muito rapidamente, mas algumas razões possíveis podem ser a heterocedasticidade (ou seja, que a variação da população difere nos diferentes níveis de ) e a presença de valores extremosN X∑(ei−e¯)2/N N x (ou seja, que um determinado resíduo é extraído de uma população completamente diferente). Quase certamente, na prática, você não será capaz de estimar a variação da população da qual um outlier foi extraído, mas, no entanto, em teoria, ele tem uma variação. Suspeito que algo desse tipo seja o que os autores tinham em mente, no entanto, devo observar que não li esse livro.
Atualização: Ao reler a pergunta, suspeito que a citação possa estar se referindo à maneira como o valor de um ponto influencia a linha de regressão ajustada e, portanto, o valor do resíduo associado a esse ponto. A principal idéia a entender aqui é a alavancagem . Discuto esses tópicos na minha resposta aqui: Interpretando plot.lm () .x
fonte