Regressão linear: * Por que * você pode particionar somas de quadrados?

9

Esta postagem refere-se a um modelo de regressão linear bivariada, . Eu sempre tomei a particionamento da soma total de quadrados (SSTO) em soma de quadrados por erro (SSE) e soma de quadrados para o modelo (SSR) com fé, mas depois que comecei a realmente pensar sobre isso, não entendi por que funciona ...Yi=β0+β1xi

A parte que eu não entendo:

yi : um valor observado de y

y¯ : a média de todos os s observadosyi

y^i : o valor ajustado / previsto de y para uma determinada observação x

yiy^i : Residual / erro (se ao quadrado e somado para todas as observações, é SSE)

y^iy¯ : quanto o valor ajustado do modelo difere da média (se ao quadrado e somado para todas as observações, isso é SSR)

yiy¯ : quanto um valor observado difere da média (se comparado e somado para todas as observações, esse é o SSTO).

Eu posso entender por que, para uma única observação, sem esquadrinhar nada, . E eu posso entender por que, se você deseja adicionar coisas a todas as observações, você precisa quadrá-las ou elas somam 0.(yiy¯)=(y^iy¯)+(yiy^i)

A parte que eu não entendo é o porquê (por exemplo, SSTO = SSR + SSE). Parece que se você tem uma situação em que , então , não . Por que não é esse o caso aqui? A = B + C A 2 = B 2 + 2 B C + C 2 A 2 = B 2 + C 2(yiy¯)2=(y^iy¯)2+(yiy^i)2A=B+CA2=B2+2BC+C2A2=B2+C2

bluemouse
fonte
5
Você deixou o somatório em seu último parágrafo. SST = SSR + SSE é uma soma sobre , mas sua igualdade que você escreveu imediatamente antes de ela não ser verdadeira sem o sinal de soma lá. i
Glen_b -Reinstala Monica
No seu último parágrafo, você deseja (por exemplo, SSTO = SSR + SSE) não (por exemplo, SSTO = SSR + SSE). "eg" é uma abreviação da frase em latim " exempli gratia " ou "por exemplo" em inglês. "ie" é uma abreviação de " id est " e pode ser lido em inglês como "isso é".
Matthew Gunn

Respostas:

9

Parece que se você tem uma situação em que , então , não . Por que não é esse o caso aqui?A 2 = B 2 + 2 B C + C 2 A 2 = B 2 + C 2A=B+CA2=B2+2BC+C2A2=B2+C2

Conceitualmente, a idéia é que porque e são ortogonais (isto é, são perpendiculares).B CBC=0BC


No contexto da regressão linear aqui, os resíduos são ortogonais à previsão modificada . A previsão da regressão linear cria uma decomposição ortogonal de no mesmo sentido que é uma decomposição ortogonal.y i - ˉ y y ( 3 , 4 ) = ( 3 , 0 ) + ( 0 , 4 )ϵi=yiy^iy^iy¯y(3,4)=(3,0)+(0,4)

Versão de álgebra linear:

Deixei:

z=[y1y¯y2y¯yny¯]z^=[y^1y¯y^2y¯y^ny¯]ϵ=[y1y^1y2y^2yny^n]=zz^

A regressão linear (com uma constante incluída) decompõe na soma de dois vetores: uma previsão e umz εzz^ϵ

z=z^+ϵ

Vamos indica o produto escalar . (Em geral, pode ser o produto interno .)X , Y E [ X Y ].,.X,Y E[XY]

z,z=z^+ϵ,z^+ϵ=z^,z^+2z^,ϵ+ϵ,ϵ=z^,z^+ϵ,ϵ

Onde a última linha decorre do fato de que (ou seja, que e são ortogonais). Você pode provar que e são ortogonais com base em como a regressão ordinária de mínimos quadrados constrói .z ε = z - z z ε zz^,ϵ=0z^ϵ=zz^z^ϵz^

zx1x2ε z x1x2εz^ é a projeção linear de no subespaço definido pelo intervalo linear dos regressores , , etc. residual é ortogonal a todo o subespaço, portanto (que fica no intervalo de , , etc ...) é ortogonal a .zx1x2ϵz^x1x2ϵ


Observe que, como defini como o produto escalar, é simplesmente outra maneira de escrever (ou seja, SSTO = SSR + SSE)Z , z= z , z+ £ , £ Σ i ( y i - ˉ y ) 2 = Σ i ( y i - ˉ y ) 2 + Σ i ( y i - y i ) 2.,.z,z=z^,z^+ϵ,ϵi(yiy¯)2=i(y^iy¯)2+i(yiy^i)2

Matthew Gunn
fonte
8

O ponto principal é mostrar que certos vetores são ortogonais e depois usam o teorema de Pitágoras.

Vamos considerar a regressão linear multivariada . Sabemos que o estimador OLS é . Agora considere a estimativaβ = ( X t X ) - 1 X t YY=Xβ+ϵβ^=(XtX)1XtY

Y^=Xβ^=X(XtX)1XtY=HY (a matriz H também é chamada de matriz "hat")

onde é uma matriz de projeção ortogonal de Y em . Agora temosS ( X )HS(X)

YY^=YHY=(IH)Y

onde é uma matriz de projeção no complemento ortogonal de que é . Assim, sabemos que e são ortogonais.S ( X ) S ( X ) Y - Y Y(IH)S(X)S(X)YY^Y^

Agora considere um submodeloY=X0β0+ϵ

onde e da mesma forma, temos o estimador OLS e estimamos e com a matriz de projeção em . Da mesma forma, temos que e são ortogonais. E agora^ β 0 ^ Y 0 H 0 S ( X 0 ) Y - ^ Y 0 ^ Y 0X=[X0|X1]β0^Y0^H0S(X0)YY0^Y0^

Y^Y0^=HYH0Y=HYH0HY=(IH0)HY

onde novamente é uma matriz de projeção ortogonal no complemento de que é . Portanto, temos a ortogonalidade de e . Então, no final, temosS ( X 0 ) S ( X 0 ) Y - ^ Y 0 ^ Y 0(IH0)S(X0)S(X0)Y^Y0^Y0^

||YY^||2=||Y||2||Y^||2=||YY0^||2+||Y0^||2||Y^Y0^||2||Y0^||2

e finalmente||YY0^||2=||YY^||2+||Y^Y0^||2

Por fim, a média é simplesmente ao considerar o modelo nulo .^ Y 0 Y=β0+eY¯Y0^Y=β0+e

Łukasz Grad
fonte
Obrigado pela sua resposta! O que é S () (como em S (X) na sua postagem)?
Bluesouse
XS(X) é um subespaço gerado pelas colunas da matrizX
Łukasz Grad