Eu estava experimentando a relação entre os erros e os resíduos usando algumas simulações simples em R. Uma coisa que eu descobri é que, independentemente do tamanho da amostra ou variação de erro, sempre consigo exatamente para a inclinação quando você se encaixa no modelo
Aqui está a simulação que eu estava fazendo:
n <- 10
s <- 2.7
x <- rnorm(n)
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e
model <- lm(y ~ x)
r <- model$res
summary( lm(e ~ r) )
e
e r
são altamente (mas não perfeitamente) correlacionados, mesmo para amostras pequenas, mas não consigo descobrir por que isso acontece automaticamente. Uma explicação matemática ou geométrica seria apreciada.
regression
least-squares
residuals
GoF_Logistic
fonte
fonte
lm(y~r)
,lm(e~r)
elm(r~r)
que, portanto, devem ser todos iguais. O último, obviamente, é . Experimente todos os três desses comandos para ver. Para que o último funcione, é necessário criar uma cópia , como . Para obter mais informações sobre diagramas geométricos de regressão, consulte stats.stackexchange.com/a/113207 .R
r
s<-r;lm(r~s)
Respostas:
a resposta do whuber é ótima! (+1) Eu resolvi o problema usando a notação mais familiar para mim e calculei que a derivação (menos interessante, mais rotineira) pode valer a pena incluir aqui.
Vamos ser o modelo de regressão, para X ∈ R n × p e £ o ruído. Em seguida, a regressão de y contra as colunas de X tem as equações normais X T ( y - X β ) = 0 , produzindo estimativas β = ( X T X ) - 1 X T Portanto a regressão possui residuais ry= Xβ∗+ ϵ X∈ Rn × p ϵ y X XT( y- Xβ^) =0,
Regressar em r resulta em uma inclinação estimada dada por ( r T r ) - 1 rϵ r
desdeque-Hé simétrico e idempotente e£∉im(X)quase certamente.
Além disso, esse argumento também se aplica se incluirmos uma interceptação quando realizamos a regressão dos erros nos resíduos se uma interceptação foi incluída na regressão original, uma vez que as covariáveis são ortogonais (ou seja, , das equações normais) .1 1Tr = 0
fonte
fonte