Intervalo de confiança para diferença de médias na regressão

10

Suponha que eu tenha um modelo de regressão quadrática com os erros satisfaçam as suposições usuais (independente, normal, independente dos valores ). Seja as estimativas de mínimos quadrados.

Y=β0+β1X+β2X2+ϵ
ϵXb0,b1,b2

Eu tenho dois novos valores e e estou interessado em obter um intervalo de confiança para .Xx1x2v=E(Y|X=x2)E(Y|X=x1)=β1(x2x1)+β2(x22x12)

A estimativa pontual é e (me corrija se estiver errado) posso estimar a variação por usando as estimativas de variância e covariância dos coeficientes fornecidos pelo software.v^=b1(x2x1)+b2(x22x12)

s^2=(x2x1)2Var(b1)+(x22x12)2Var(b2)+2(x2x1)(x2x12)Cov(b1,b2)

Eu poderia usar uma aproximação normal e considerar como um intervalo de confiança de 95% para , ou eu poderia usar um intervalo de confiança de autoinicialização, mas existe uma maneira de calcular a distribuição exata e usar isso?v^±1.96s^v

mark999
fonte
2
Como os erros são assumidos normais, as estimativas de parâmetros - sendo funções lineares dos dados, de onde também os erros - devem ser normais, implicando uma distribuição normal para . v^
whuber
Então você está dizendo que o intervalo de confiança normal está correto? Se eu entendi corretamente, por essa lógica, também usaríamos intervalos de confiança normais para os parâmetros. Mas usamos intervalos baseados na distribuição t.
mark999 7/11
A distribuição t é usada porque você está estimando a variação do erro; se isso fosse conhecido, você teria uma distribuição normal como a @whuber diz.
JMS
Obrigado por seu comentário. O que estou perguntando é: a distribuição t também pode ser usada para um intervalo de confiança para v, conforme definido na pergunta e, em caso afirmativo, com quantos graus de liberdade?
mark999
Todas as variações e covariâncias dependem, em última análise, da variação estimada dos resíduos. Portanto, o DF a ser utilizado é o DF nesta estimativa, igual ao número de valores de dados menos o número de parâmetros (incluindo a constante).
whuber

Respostas:

9

O resultado geral que você está procurando (sob as premissas declaradas) é mais ou menos assim: Para regressão linear com variáveis ​​preditivas (você tem dois, e ) e um intercepto, depois com observações, the matriz de projeto, o estimador dimensional epXX2nXn×(p+1)β^p+1aRp+1

aTβ^aTβσ^aT(XTX)1atnp1.

A conseqüência é que você pode construir intervalos de confiança para qualquer combinação linear do vetor usando a mesma distribuição usada para construir um intervalo de confiança para uma das coordenadas.βt

No seu caso, e . O denominador na fórmula acima é a raiz quadrada do que você calcula como a estimativa do erro padrão (desde que seja o que o software calcula ...). Observe que o estimador de variância, , deve ser o estimador imparcial (usual), onde você divide pelos graus de liberdade, , e não pelo número de observações .p=2aT=(0,x2x1,x22x12)σ^2np1n

NRH
fonte
11
Obrigado, esse é exatamente o tipo de coisa que eu estava procurando. Mas há um erro na fórmula? As dimensões parecem não corresponder em . Deve ser os matriz com os da primeira coluna? aT(XTX)1aXn×(p+1)
mark999
@ mark999, sim, tem colunas. Eu corrigi isso na resposta. Obrigado. Xp+1
NRH