Gostaria de entender por que, no âmbito do modelo OLS, o RSS (soma dos quadrados dos resíduos) é distribuído ( sendo o número de parâmetros do modelo, o número de observações).
Peço desculpas por fazer uma pergunta tão básica, mas parece que não consigo encontrar a resposta on-line (ou nos meus livros didáticos mais orientados para aplicativos).
regression
distributions
least-squares
Tal Galili
fonte
fonte
Respostas:
Eu considero o seguinte modelo linear:y=Xβ+ϵ .
O vetor de resíduos é estimado por
onde .Q=I−X(X′X)−1X′
Observe que (o traço é invariável sob permutação cíclica) e que Q ′ = Q = Q 2 . Os autovalores de Q são, portanto, 0 e 1 (alguns detalhes abaixo). Portanto, existe uma matriz unitária V tal que ( matrizes são diagonalizáveis por matrizes unitárias se e somente se forem normais ) .tr(Q)=n−p Q′=Q=Q2 Q 0 1 V
Agora, vamos ε .K=V′ϵ^
Desde ε ~ N ( 0 , σ 2 Q ) , dispomos de K ~ N ( 0 , σ 2 Δ ) e, por conseguinte, K n - p + 1 = ... = K n = 0 . portantoϵ^∼N(0,σ2Q) K∼ N( 0 , σ2Δ ) Kn - p + 1= … = Kn= 0
com .K⋆= ( K1, … , Kn - p)′
Além disso, como é uma matriz unitária, também temosV
portanto
Por fim, observe que esse resultado implica que
Como , o polinômio mínimo de Q divide o polinômio z 2 - z . Portanto, os autovalores de Q estão entre 0 e 1 . Como tr ( Q ) = n - p também é a soma dos autovalores multiplicados por sua multiplicidade, temos necessariamente que 1 é um autovalor com multiplicidade n - p e zero é um autovalor com multiplicidade p .Q2- Q = 0 Q z2- z Q 0 0 1 tr (Q)=n-p 1 n - p p
fonte
IMHO, a notação matricial complica as coisas. A linguagem pura do espaço vetorial é mais limpa. O modelo pode ser escrito Y = μ + σ G, onde G tem a distribuição normal padrão em R n e μ é assumido como pertencendo a um subespaço vetorial W ⊂ R n .Y=Xβ+ϵ Y=μ+σG G Rn μ W⊂Rn
Agora a linguagem da geometria elementar entra em jogo. Os mínimos quadrados estimador μ de μ é nada mas P W Y : a projecção ortogonal da observável Y no espaço W para que μ é assumido como pertencem. O vetor de resíduos é P ⊥ W Y : projeção no complemento ortogonal W ⊥ de W em R n . A dimensão de W ⊥ é fraca ( W ⊥ ) = n -μ^ μ PWY Y W μ P⊥WY W⊥ W Rn W⊥ .dim(W⊥)=n−dim(W)
Finalmente, e P ⊥ W G tem a distribuição normal padrão em W ⊥ , portanto, sua norma ao quadrado tem a distribuição χ 2 com dim ( W ⊥ ) graus de liberdade.
Esta demonstração usa apenas um teorema, na verdade um teorema de definição:
Definição e teorema . Um vetor aleatório em tem a distribuição normal padrão em um espaço vetorial U ⊂ R n se ele recebe seus valores em U e suas coordenadas em um (Rn U⊂Rn U ⟺ ao todo) base ortonormal de são distribuições normais padrão unidimensionais independentesU
(deste teorema da definição, o teorema de Cochran é tão óbvio que não vale a pena afirmar)
fonte