Como derivar matriz de variância-covariância de coeficientes em regressão linear

36

Estou lendo um livro sobre regressão linear e tenho alguns problemas para entender a matriz de variância-covariância de b :

insira a descrição da imagem aqui

Os itens diagonais são fáceis, mas os fora da diagonal são um pouco mais difíceis, o que me intriga é que

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

mas não há vestígios de e β 1 aqui.β0β1

qed
fonte
3
Pergunta relacionada: stats.stackexchange.com/questions/44838/…
ocram
2
Qual é o livro?
Konstantinos
Neter et al., Modelos de regressão linear aplicada, 1983, página 216. Você pode encontrar o mesmo material em Modelos Estatísticos Lineares Aplicados, 5ª Edição, página 207.
akavalar

Respostas:

53

Esta é realmente uma pergunta interessante que desafia seu entendimento básico de uma regressão.

Primeiro elimine qualquer confusão inicial sobre notação. Estamos olhando para a regressão:

y=b0+b1x+u^

em que b0 e b1 são os estimadores da verdadeira β0 e β1 , e u são os resíduos da regressão. Observe que a regressão verdadeira e não servida subjacente é, portanto, denotada como:u^

y=β0+β1x+u

Com a expectativa de E[u]=0 e variância E[u2]=σ2 . Alguns livros denotam b como β e nós adaptar esta convenção aqui. Também usamos a notação matricial, onde b é o vetor 2x1 que contém os estimadores de β = [ β 0 , β 1 ] , ou seja, b = [ b 0 , b 1 ] β^β=[β0,β1]b=[b0,b1]. (Também por uma questão de clareza, trato X como fixado nos cálculos a seguir).

Agora a sua pergunta. Sua fórmula para a covariância é realmente correta, ou seja:

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

Eu acho que você quer saber como é que temos os verdadeiros coeficientes não observados β0,β1 nesta fórmula? Eles são cancelados se dermos um passo adiante ao expandir a fórmula. Para ver isso, observe que a variação populacional do estimador é dada por:

Var(β^)=σ2(XX)1

Essa matriz mantém as variações nos elementos diagonais e covariâncias nos elementos fora da diagonal.

To arrive to the above formula, let's generalize your claim by using matrix notation. Let us therefore denote variance with Var[] and expectation with E[].

Var[b]=E[b2]E[b]E[b]

Essencialmente, temos a fórmula geral de variação, usando apenas a notação matricial. A equação resolve quando substitui na expressão padrão o estimador b=(XX)1Xy . Suponha também que E[b]=β seja um estimador imparcial. Portanto, obtemos:

E[((XX)1Xy)2]β22×2

Note that we have on the right hand side β2 - 2x2 matrix, namely bb, but you may at this point already guess what will happen with this term shortly.

Replacing y with our expression for the true underlying data generating process above, we have:

E[((XX)1Xy)2]β2=E[((XX)1X(Xβ+u))2]β2=E[((XX)1XX=Iβ+(XX)1Xu)2]β2=E[(β+(XX)1Xu)2]β2=β2+E[(XX)1Xu)2]β2

since E[u]=0. Furthermore, the quadratic β2 term cancels out as anticipated.

Thus we have:

Var[b]=((XX)1X)2E[u2]

By linearity of expectations. Note that by assumption E[u2]=σ2 and ((XX)1X)2=(XX)1XX(XX)1=(XX)1 since XX is a K×K symetric matrix and thus the same as its transpose. Finally we arrive at

Var[b]=σ2(XX)1

Now that we got rid of all β terms. Intuitively, the variance of the estimator is independent of the value of true underlying coefficient, as this is not a random variable per se. The result is valid for all individual elements in the variance covariance matrix as shown in the book thus also valid for the off diagonal elements as well with β0β1 to cancel out respectively. The only problem was that you had applied the general formula for the variance which does not reflect this cancellation at first.

Ultimately, the variance of the coefficients reduces to σ2(XX)1 and independent of β. But what does this mean? (I believe you asked also for a more general understanding of the general covariance matrix)

Look at the formula in the book. It simply asserts that the variance of the estimator increases for when the true underlying error term is more noisy (σ2 increases), but decreases for when the spread of X increases. Because having more observations spread around the true value, lets you in general build an estimator that is more accurate and thus closer to the true β. On the other hand, the covariance terms on the off-diagonal become practically relevant in hypothesis testing of joint hypotheses such as b0=b1=0. Other than that they are a bit of a fudge, really. Hope this clarifies all questions.

Majte
fonte
and when keep the spread constant and decrease the x's, the standard error of the intercept becomes smaller, which makes sense.
Theta30
I don't follow the expansion of the square. Why is not simplified to ((XX)1X)2=((XX)1X)((XX)1X)=X2?
David
2

In your case we have

XX=[nXiXiXi2]

Invert this matrix and you will get the desired result.

mpiktas
fonte
1

It appears that β0β1 are the predicted values (expected values). They make the switch between E(b0)=β0 and E(b1)=β1.

Drew75
fonte
β0 and β1 are generally unknown, what can they switch to?
qed
I think I understand the confusion, and I think they perhaps should have written β0 rather than β0. Here's another post that goes through the calculation: link
Drew75
2
@qed: to sample estimates of the unknown quantities.
Glen_b -Reinstate Monica