Nota: = soma dos quadrados total, = soma dos erros quadrados e = soma dos quadrados por regressão. A equação no título é frequentemente escrita como:
Pergunta bastante direta, mas estou procurando uma explicação intuitiva. Intuitivamente, parece-me que faria mais sentido. Por exemplo, suponha que o ponto tenha o valor y correspondente e \ hat y_i = 3 , onde \ hat y_i é o ponto correspondente na linha de regressão. Suponha também que o valor y médio para o conjunto de dados seja \ bar y = 0 . Então, para este ponto específico i, SST = (5-0) ^ 2 = 5 ^ 2 = 25 , enquanto SSE = (5-3) ^ 2 = 2 ^ 2 = 4 e SSR = (3-0) ^ 2 = 3 ^ 2 = 9 . Obviamente, 9 + 4 <25 . Esse resultado não seria generalizado para todo o conjunto de dados? Eu não entendo.y i = 3 y i ˉ y = 0 S S t = ( 5 - 0 ) 2 = 5 2 = 25 S S E = ( 5 - 3 ) 2 = 2 2 = 4 S S9 + 4 < 25
Respostas:
Adicionar e subtrair fornece Portanto, precisamos mostrar que . Escreva Portanto, (a) os resíduos precisam ser ortogonais aos valores ajustados, e (b) a soma dos valores ajustados precisa ser igual à soma da variável dependente,
Na verdade, acho que (a) é mais fácil de mostrar em notação matricial para regressão múltipla geral da qual o caso de variável única é um caso especial: Quanto a (b), a derivada do critério OLS funciona em relação à constante (portanto, você precisa de um na regressão para que isso seja verdade!), também conhecida como equação normal, é que pode ser reorganizado para O lado direito dessa equação também é evidentemente , como
fonte
(1) Intuição para por queSST=SSR+SSE
Quando tentamos explicar a variação total em Y (SST ) com uma variável explicativa, X, existem exatamente duas fontes de variabilidade. Primeiro, há a variabilidade capturada por X (regressão quadrática da soma) e, segundo, há a variabilidade não capturada por X (erro quadrático da soma). Portanto, SST=SSR+SSE (igualdade exata).
(2) Intuição geométrica
Veja as primeiras fotos aqui (especialmente a terceira): https://sites.google.com/site/modernprogramevaluation/variance-and-bias
Parte da variação total nos dados (distância do ponto de dados a ) é capturada pela linha de regressão (a distância da linha de regressão a ) e erro (distância do ponto à linha de regressão) ) Não há espaço para que o seja maior que o .Y¯ Y¯ SST SSE+SSR
(3) O problema com sua ilustração
Você não pode ver o SSE e o SSR de maneira pontual. Para um ponto em particular, o residual pode ser grande, de modo que existe mais erro do que a capacidade explicativa de X. No entanto, para outros pontos, o residual será pequeno, de modo que a linha de regressão explica grande parte da variabilidade. Eles vão equilibrar e, finalmente, . Claro que isso não é rigoroso, mas você pode encontrar provas como as acima.SST=SSR+SSE
Observe também que a regressão não será definida para um ponto: e você pode ver que o denominador será zero, tornando a estimativa indefinida.b1=∑(Xi−X¯)(Yi−Y¯)∑(Xi−X¯)2
Espero que isto ajude.
--Ryan M.
fonte
Quando um intercepto é incluído na regressão linear (a soma dos resíduos é zero), .SST=SSE+SSR
prove Só é necessário provar que a última parte é igual a 0: Na regressão de mínimos quadrados, a soma dos quadrados dos erros é minimizada.SST====∑i=1n(yi−y¯)2∑i=1n(yi−y^i+y^i−y¯)2∑i=1n(yi−y^i)2+2∑i=1n(yi−y^i)(y^i−y¯)+∑i=1n(y^i−y¯)2SSE+SSR+2∑i=1n(yi−y^i)(y^i−y¯) ∑i=1n(yi−y^i)(y^i−y¯)==∑i=1n(yi−β0−β1xi)(β0+β1xi−y¯)(β0−y¯)∑i=1n(yi−β0−β1xi)+β1∑i=1n(yi−β0−β1xi)xi SSE=∑i=1n(ei)2=∑i=1n(yi−yi^)2=∑i=1n(yi−β0−β1xi)2
Tome a derivada parcial do SSE em relação a e defina-a como zero.
So
Pegue a derivada parcial do SSE em relação a e defina-a como zero.
So
Portanto,
β0 ∂SSE∂β0=∑i=1n2(yi−β0−β1xi)1=0 ∑i=1n(yi−β0−β1xi)1=0 β1 ∂SSE∂β1=∑i=1n2(yi−β0−β1xi)1xi=0 ∑i=1n(yi−β0−β1xi)1xi=0 ∑i=1n(yi−y^i)(y^i−y¯)=(β0−y¯)∑i=1n(yi−β0−β1xi)+β1∑i=1n(yi−β0−β1xi)xi=0
SST=SSE+SSR+2∑i=1n(yi−y^i)(y^i−y¯)=SSE+SSR
fonte
Este é apenas o teorema de Pitágoras!
fonte