Distribuição do erro da soma dos quadrados para regressão linear?

12

Eu sei que a distribuição da variação de amostra É do fato de que pode ser expressa na forma de matriz, (onde A: simétrico), e pode ser novamente expressa em: (onde Q: ortonormal, D: matriz diagonal).

(XiX¯)2σ2χ(n1)2
(XiX¯)2n1σ2n1χ(n1)2
(XX¯)2xAxxQDQx

Que tal , dada a suposição ? (Yiβ^0β^1Xi)2(Yβ0β1X)N(0,σ2)

Eu acho que

(Yiβ^0β^1Xi)2σ2χ(n2)2.

Mas não tenho idéia de como provar ou mostrar.

É distribuído exatamente como ?χ(n2)2

KH Kim
fonte
1
Isso é lição de casa? Nesse caso, use a tag Homework.
MånsT
Não, não é. Eu acho que é verdade bcoz, afinal, a soma dos quadrados é um quadrado de combinação linear de Y, dado X constante. Mas é isso? Prova simples como essa seria apreciada! math.stackexchange.com/questions/47009/...
KH Kim
As descrições que você fornece na pergunta e no seu comentário são um pouco confusas. Você já escreveu qual é a sua matrizAdeve ser para a variação da amostra? Isso ajuda você a ver como generalizar?
cardeal
Corrigido para D. Acho que o ponto crítico é que o elemento diagonal de D deve ser algo como (1,1,1, ..., 1,0,0). Existe alguma maneira de provar isso? ou Existe alguma maneira de mostrar queχ2(n)=χ2(n2)+χ2(1)+χ2(1) onde sse /σ2χ2(n2), ei2/σ2χ2(n)
KH Kim

Respostas:

13

Podemos provar isso para um caso mais geral de pvariáveis ​​usando a "matriz de chapéu" e algumas de suas propriedades úteis. Esses resultados são geralmente muito mais difíceis de declarar em termos não matriciais, devido ao uso da decomposição espectral.

Agora, na versão matricial dos mínimos quadrados, a matriz do chapéu é H=X(XTX)1XT Onde X tem n linhas e p+1 colunas (coluna de unidades para β0) Assuma a classificação completa da coluna por conveniência - caso contrário, você pode substituirp+1 pela classificação da coluna de Xna sequência. Podemos escrever os valores ajustados comoY^i=j=1nHijYj ou em notação matricial Y^=HY. Usando isso, podemos escrever a soma dos quadrados como:

i=1(YYi^)2σ2=(YY^)T(YY^)σ2=(YHY)T(YHY)σ2
=YT(InH)Yσ2

Onde In é uma matriz de identidade de ordem n. The last step follows from the fact that H is an idepotent matrix, as

H2=[X(XTX)1XT][X(XTX)1XT]=X(XTX)1XT=H=HHT=HTH

Now a neat property of idepotent matrices is that all of their eigenvalues must be equal to zero or one. Letting e denote a normalised eigenvector of H with eigenvalue l, we can prove this as follows:

He=leH(He)=H(le)
LHS=H2e=He=leRHS=lHe=l2e
le=l2el=0 or 1

(note that e cannot be zero as it must satisfy eTe=1) Now because H is idepotent, InH also is, because

(InH)(InH)=IIHHI+H2=InH

We also have the property that the sum of the eigenvalues equals the trace of the matrix, and

tr(InH)=tr(In)tr(H)=ntr(X(XTX)1XT)=ntr((XTX)1XTX)
=ntr(Ip+1)=np1

Hence IH must have np1 eigenvalues equal to 1 and p+1 eigenvalues equal to 0.

Now we can use the spectral decomposition of IH=ADAT where D=(Inp10[np1]×[p+1]0[p+1]×[np1]0[p+1]×[p+1]) and A is orthogonal (because IH is symmetric) . A further property which is useful is that HX=X. This helps narrow down the A matrix

HX=X(IH)X=0ADATX=0DATX=0
(ATX)ij=0i=1,,np1j=1,,p+1

and we get:

i=1(YYi^)2σ2=YTADATYσ2=i=1np1(ATY)i2σ2

Now, under the model we have YN(Xβ,σ2I) and using standard normal theory we have ATYN(ATXβ,σ2ATA)N(ATXβ,σ2I) showing that the components of ATY are independent. Now using the useful result, we have that (ATY)iN(0,σ2) for i=1,,np1. The chi-square distribution with np1 degrees of freedom for the sum of squared errors follows immediately.

probabilityislogic
fonte
Wow, Thank you very much. It really is magnificent! Matrix form really pays off! In summary, SSE/σ2=YT(IH)Y and IH is idempotent. Idempotent matrices have eigenvalues either 0 or 1. So sum of eigenvalues is the number of eigenvalue 1. and tr(InH)=tr(In)tr(H)=tr(In)tr(X(XTX)1XT)=tr(In)tr((XTX)1XTX) since tr(AB)=tr(BA), and tr(InH) becomes n-p+1. and sum of eigenvalues of a matrix is sum of traces of the matrix! and IH can be expressed as ADAT. So the first YT(IH)Y becomes YTADATY with D with only n-p-1 diagonal 1's.
KH Kim
1
Great answer!! Just to present another approach, we can instead choose to define a transformed multivariate normal variable v:=AY and it will still follow the same distribution N(0,σ2I) if we use the affine property. Then the last fraction YADAYσ2=vDvσ2=v[I000]vσ2=i=1trD(viσ)2.
Daeyoung Lim