Esta postagem refere-se a um modelo de regressão linear bivariada, . Eu sempre tomei a particionamento da soma total de quadrados (SSTO) em soma de quadrados por erro (SSE) e soma de quadrados para o modelo (SSR) com fé, mas depois que comecei a realmente pensar sobre isso, não entendi por que funciona ...
A parte que eu não entendo:
: um valor observado de y
: a média de todos os s observados
: o valor ajustado / previsto de y para uma determinada observação x
: Residual / erro (se ao quadrado e somado para todas as observações, é SSE)
: quanto o valor ajustado do modelo difere da média (se ao quadrado e somado para todas as observações, isso é SSR)
: quanto um valor observado difere da média (se comparado e somado para todas as observações, esse é o SSTO).
Eu posso entender por que, para uma única observação, sem esquadrinhar nada, . E eu posso entender por que, se você deseja adicionar coisas a todas as observações, você precisa quadrá-las ou elas somam 0.
A parte que eu não entendo é o porquê (por exemplo, SSTO = SSR + SSE). Parece que se você tem uma situação em que , então , não . Por que não é esse o caso aqui? A = B + C A 2 = B 2 + 2 B C + C 2 A 2 = B 2 + C 2
fonte
Respostas:
Conceitualmente, a idéia é que porque e são ortogonais (isto é, são perpendiculares).B CBC=0 B C
No contexto da regressão linear aqui, os resíduos são ortogonais à previsão modificada . A previsão da regressão linear cria uma decomposição ortogonal de no mesmo sentido que é uma decomposição ortogonal.y i - ˉ y y ( 3 , 4 ) = ( 3 , 0 ) + ( 0 , 4 )ϵi=yi−y^i y^i−y¯ y (3,4)=(3,0)+(0,4)
Versão de álgebra linear:
Deixei:
A regressão linear (com uma constante incluída) decompõe na soma de dois vetores: uma previsão e umz εz z^ ϵ
Vamos indica o produto escalar . (Em geral, pode ser o produto interno .)⟨ X , Y ⟩ E [ X Y ]⟨.,.⟩ ⟨X,Y⟩ E[XY]
Onde a última linha decorre do fato de que (ou seja, que e são ortogonais). Você pode provar que e são ortogonais com base em como a regressão ordinária de mínimos quadrados constrói .z ε = z - z z ε z⟨z^,ϵ⟩=0 z^ ϵ=z−z^ z^ ϵ z^
zx1x2ε z x1x2εz^ é a projeção linear de no subespaço definido pelo intervalo linear dos regressores , , etc. residual é ortogonal a todo o subespaço, portanto (que fica no intervalo de , , etc ...) é ortogonal a .z x1 x2 ϵ z^ x1 x2 ϵ
Observe que, como defini como o produto escalar, é simplesmente outra maneira de escrever (ou seja, SSTO = SSR + SSE)⟨ Z , z ⟩ = ⟨ z , z ⟩ + ⟨ £ , £ ⟩ Σ i ( y i - ˉ y ) 2 = Σ i ( y i - ˉ y ) 2 + Σ i ( y i - y i ) 2⟨.,.⟩ ⟨z,z⟩=⟨z^,z^⟩+⟨ϵ,ϵ⟩ ∑i(yi−y¯)2=∑i(y^i−y¯)2+∑i(yi−y^i)2
fonte
O ponto principal é mostrar que certos vetores são ortogonais e depois usam o teorema de Pitágoras.
Vamos considerar a regressão linear multivariada . Sabemos que o estimador OLS é . Agora considere a estimativaβ = ( X t X ) - 1 X t YY=Xβ+ϵ β^=(XtX)−1XtY
onde é uma matriz de projeção ortogonal de Y em . Agora temosS ( X )H S(X)
onde é uma matriz de projeção no complemento ortogonal de que é . Assim, sabemos que e são ortogonais.S ( X ) S ⊥ ( X ) Y - Y Y(I−H) S(X) S⊥(X) Y−Y^ Y^
Agora considere um submodeloY=X0β0+ϵ
onde e da mesma forma, temos o estimador OLS e estimamos e com a matriz de projeção em . Da mesma forma, temos que e são ortogonais. E agora^ β 0 ^ Y 0 H 0 S ( X 0 ) Y - ^ Y 0 ^ Y 0X=[X0|X1] β0^ Y0^ H0 S(X0) Y−Y0^ Y0^
onde novamente é uma matriz de projeção ortogonal no complemento de que é . Portanto, temos a ortogonalidade de e . Então, no final, temosS ( X 0 ) S ⊥ ( X 0 ) Y - ^ Y 0 ^ Y 0(I−H0) S(X0) S⊥(X0) Y^−Y0^ Y0^
e finalmente||Y−Y0^||2=||Y−Y^||2+||Y^−Y0^||2
Por fim, a média é simplesmente ao considerar o modelo nulo .^ Y 0 Y=β0+eY¯ Y0^ Y=β0+e
fonte