Erros padrão para múltiplos coeficientes de regressão?

18

Percebo que essa é uma pergunta muito básica, mas não consigo encontrar resposta em lugar nenhum.

Estou computando coeficientes de regressão usando as equações normais ou a decomposição QR. Como posso calcular erros padrão para cada coeficiente? Eu geralmente penso nos erros padrão como sendo calculados como:

SEx¯ =σx¯n

O que é para cada coeficiente? Qual é a maneira mais eficiente de calcular isso no contexto do OLS?σx¯

Belmont
fonte

Respostas:

19

Ao fazer a estimativa de mínimos quadrados (assumindo um componente aleatório normal), as estimativas dos parâmetros de regressão são normalmente distribuídas com média igual ao parâmetro de regressão verdadeiro e matriz de covariância onde é a variação residual e X ^ TX é a matriz de projeto. X ^ T é a transposição de X e X é definido pela equação do modelo Y = X \ beta + \ epsilon com \ beta os parâmetros de regressão e \ epsilon é o termo do erro. O desvio padrão estimado de um parâmetro beta é obtido assumindo o termo correspondente em (X ^ TX) ^ {- 1} s 2 X t X X T X X Y = X β + £ β £ ( X T X ) - 1Σ=s2(XTX)1s2XTXXTXXY=Xβ+ϵβϵ(XTX)1multiplicando-o pela estimativa amostral da variância residual e depois tomando a raiz quadrada. Este não é um cálculo muito simples, mas qualquer pacote de software o computará e fornecerá na saída.

Exemplo

Na página 134 de Draper e Smith (referenciada no meu comentário), eles fornecem os seguintes dados para ajustar por mínimos quadrados um modelo Y=β0+β1X+ε onde εN(0,Iσ2) .

                      X                      Y                    XY
                      0                     -2                     0
                      2                      0                     0
                      2                      2                     4
                      5                      1                     5
                      5                      3                    15
                      9                      1                     9
                      9                      0                     0
                      9                      0                     0
                      9                      1                     9
                     10                     -1                   -10
                    ---                     --                   ---
Sum                  60                      5                    32
Sum of  Squares     482                     21                   528

Parece um exemplo em que a inclinação deve estar próxima de 0.

Xt=(111111111102255999910).

então

XtX=(nXiXiXi2)=(106060482)

e

(XtX)1=(Xi2n(XiX¯)2X¯(XiX¯)2X¯(XiX¯)21(XiX¯)2)=(48210(122)612261221122)=(0,395-0,049-0,0490,008)

onde .X¯=XEu/n=60/10=6

Estimativa para = (b0) = (Yb-b1 Xb) b1 Sxy / Sxxβ=(XTX)-1XTY

b1 = 1/61 = 0,0163 eb = 0 - 0,0163 (6) = 0,402

De acima Sb1 = Se (0,008) e Sb0 = Se (0,395) em que Se é o desvio padrão estimado para o termo de erro. Se = √2,3085.(XTX)-1

Lamentamos que as equações não tenham assinatura e sobrescrição quando eu as recortei e colei. A mesa também não se reproduziu bem porque os espaços foram ignorados. A primeira sequência de 3 números corresponde aos primeiros valores de XY e XY e o mesmo para as sequências de caracteres a seguir de três. Depois de Sum vem as somas para XY e XY, respectivamente, e depois a soma dos quadrados para XY e XY, respectivamente. As matrizes 2x2 também foram confusas. Os valores após os colchetes devem estar entre colchetes abaixo dos números à esquerda.

Michael R. Chernick
fonte
2
Não pretendo ser um plugue para o meu livro, mas passo os cálculos da solução dos mínimos quadrados em regressão linear simples (Y = aX + b) e calculo os erros padrão de aeb, pp.101-103, The Essentials of Biostatistics para Physicians, Nurses e Clinicians, Wiley 2011. uma descrição mais detalhada pode ser encontrada em Draper e Smith Applied Regression Analysis 3rd Edition, Wiley New York 1998, página 126-127. Na minha resposta a seguir, tomarei um exemplo de Draper e Smith.
Michael R. Chernick
8
Quando comecei a interagir com este site, Michael, tive sentimentos semelhantes. Com a experiência, eles mudaram. Vale a pena conhecer alguns e, uma vez que você o faça, é (quase) tão rápido digitá-lo quanto digitar qualquer coisa em inglês. Também aprendi, estudando postagens exemplares (como muitas respostas de @chl, cardeal e outros usuários de alta reputação por post), que fornecer referências, ilustrações claras e equações bem pensadas geralmente é muito apreciado e bem recebido. Alta qualidade é uma coisa que diferencia este site da maioria dos outros. TEX
whuber
2
Tudo bem, Bill e é bom que tantas pessoas se dediquem a dar esses posts de alta qualidade. Posso usar o látex para outros fins, como publicar documentos. Mas não tenho tempo para fazer todo o esforço que as pessoas esperam de mim neste site. Não vou investir tempo apenas para prestar serviços neste site.
Michael R. Chernick
4
Eu acho que a desconexão está aqui: "Esta é apenas uma das muitas coisas neste site que exige que os que postam dediquem mais tempo e esforço" - @whuber e eu estamos dizendo que, de fato, não leva tempo extra se você sabe como fazer isso. Nós não aprendemos para podermos postar neste site - nós (pelo menos eu) aprendemos porque é uma habilidade importante ter como estatístico e, por acaso, torna as postagens muito mais legíveis neste site. TEXTEX
Macro
3
Como muitas pessoas aqui, sim, eu trabalho como estatístico, mas também acho divertido - este site é recreativo para mim e é um bônus interessante que outras pessoas achem algumas das minhas postagens úteis. Se você acha que marcar suas equações com é um trabalho e não acha que vale a pena aprender, que assim seja, mas saiba que parte do seu conteúdo será ignorado. TEX
Macro