Por que o RSS é distribuído chi square times np?

28

Gostaria de entender por que, no âmbito do modelo OLS, o RSS (soma dos quadrados dos resíduos) é distribuído ( sendo o número de parâmetros do modelo, o número de observações).

χ2(np)
pn

Peço desculpas por fazer uma pergunta tão básica, mas parece que não consigo encontrar a resposta on-line (ou nos meus livros didáticos mais orientados para aplicativos).

Tal Galili
fonte
3
Observe que as respostas demonstram que a afirmação não está correta: a distribuição do RSS é σ2 (não np ) vezes uma distribuição χ2(np) que σ2 é a verdadeira variação dos erros.
whuber

Respostas:

36

Eu considero o seguinte modelo linear: y=Xβ+ϵ .

O vetor de resíduos é estimado por

ϵ^=yXβ^=(IX(XX)1X)y=Qy=Q(Xβ+ϵ)=Qϵ

onde .Q=IX(XX)1X

Observe que (o traço é invariável sob permutação cíclica) e que Q = Q = Q 2 . Os autovalores de Q são, portanto, 0 e 1 (alguns detalhes abaixo). Portanto, existe uma matriz unitária V tal que ( matrizes são diagonalizáveis ​​por matrizes unitárias se e somente se forem normais ) .tr(Q)=npQ=Q=Q2Q01V

VQV=Δ=diag(1,,1np times,0,,0p times)

Agora, vamos ε .K=Vϵ^

Desde ε ~ N ( 0 , σ 2 Q ) , dispomos de K ~ N ( 0 , σ 2 Δ ) e, por conseguinte, K n - p + 1 = ... = K n = 0 . portantoϵ^N(0 0,σ2Q)KN(0 0,σ2Δ)Kn-p+1=...=Kn=0 0

__K__2σ2=__K__2σ2χn-p2

com .K=(K1,...,Kn-p)

Além disso, como é uma matriz unitária, também temosV

__ϵ^__2=__K__2=__K__2

portanto

RSSσ2χn-p2

Por fim, observe que esse resultado implica que

E(RSSn-p)=σ2

Como , o polinômio mínimo de Q divide o polinômio z 2 - z . Portanto, os autovalores de Q estão entre 0 e 1 . Como tr ( Q ) = n - p também é a soma dos autovalores multiplicados por sua multiplicidade, temos necessariamente que 1 é um autovalor com multiplicidade n - p e zero é um autovalor com multiplicidade p .Q2-Q=0 0Qz2-zQ0 01tr(Q)=n-p1n-pp

ocram
fonte
1
(+1) Boa resposta. Pode-se restringir a atenção a ortogonal, em vez de unitário, pois Q é real e simétrico. Além disso, o que é S C R ? Não o vejo definido. Rejeitando levemente o argumento, também se pode evitar o uso de um normal degenerado, caso isso cause alguma consternação para aqueles que não o conhecem. VQSCR
cardeal
2
@Cardeal. Bom ponto. SCR ('Somme des Carrés Résiduels' em francês) deveria ter sido RSS.
Ocram
Obrigado pela resposta detalhada Ocram! Alguns passos exigirão que eu procure mais, mas tenho um esboço para pensar agora - obrigado!
Tal Galili
@Glen_b: Ah, eu fiz uma edição há alguns dias para mudar SCR para SRR. Não lembro que o SCR é mencionado no meu comentário. Desculpe pela confusão.
Ocram
@Glen_b: Era para significar RSS: -S Editado novamente. Thx
ocram
9

IMHO, a notação matricial complica as coisas. A linguagem pura do espaço vetorial é mais limpa. O modelo pode ser escrito Y = μ + σ G, onde G tem a distribuição normal padrão em R n e μ é assumido como pertencendo a um subespaço vetorial W R n .Y=Xβ+ϵY=μ+σGGRnμWRn

Agora a linguagem da geometria elementar entra em jogo. Os mínimos quadrados estimador μ de μ é nada mas P W Y : a projecção ortogonal da observável Y no espaço W para que μ é assumido como pertencem. O vetor de resíduos é P W Y : projeção no complemento ortogonal W de W em R n . A dimensão de W é fraca ( W ) = n -μ^μPWYYWμPWYWWRnW .dim(W)=ndim(W)

Finalmente, e P W G tem a distribuição normal padrão em W , portanto, sua norma ao quadrado tem a distribuição χ 2 com dim ( W ) graus de liberdade.

PWY=PW(μ+σG)=0+σPWG,
PWGWχ2dim(W)

Esta demonstração usa apenas um teorema, na verdade um teorema de definição:

Definição e teorema . Um vetor aleatório em tem a distribuição normal padrão em um espaço vetorial U R n se ele recebe seus valores em U e suas coordenadas em um (RnURnUao todo) base ortonormal de são distribuições normais padrão unidimensionais independentesU

(deste teorema da definição, o teorema de Cochran é tão óbvio que não vale a pena afirmar)

Stéphane Laurent
fonte