Explicação intuitiva do termo

18

Se é a classificação completa, o inverso de existe e obtemos a estimativa de mínimos quadrados: eX t X β = ( X T X ) - 1 X Y Var ( β ) = σ 2 ( X T X )XXTX

β^=(XTX)1XY
Var(β^)=σ2(XTX)1

Como podemos explicar intuitivamente na fórmula de variância? A técnica de derivação é clara para mim.(XTX)1

Daniel Yefimov
fonte
3
Você pode adicionar uma observação para salientar que a fórmula que você definiu para a matriz de variância-covariância de - assumindo que seja estimada pelo OLS - estará correta somente se o condições do teorema de Gauss-Markov são satisfeitas e, em particular, somente se a matriz de variância-covariância dos termos de erro for dada por , onde é a matriz de identidade e é o número de linhas de (e ). A fórmula que você forneceu não está correta para o caso mais geral de erros não esféricos. p σ2InInnxnnXYβ^β^σ2InInn×nnXY
Mico

Respostas:

13

Considere uma regressão simples, sem um termo constante, e onde o único regressor esteja centrado na média da amostra. Então é ( vezes) sua variação de amostra e é recirpocal. Portanto, quanto maior a variância = variabilidade no regressor, menor a variância do estimador de coeficiente: quanto mais variabilidade tivermos na variável explicativa, mais precisamente podemos estimar o coeficiente desconhecido. n ( X X )XXn(XX)1

Por quê? Como quanto mais variável é um regressor, mais informações ele contém. Quando os regressores são muitos, isso se generaliza ao inverso de sua matriz de variância-covariância, que também leva em consideração a co-variabilidade dos regressores. No caso extremo em que é diagonal, a precisão de cada coeficiente estimado depende apenas da variação / variabilidade do regressor associado (dada a variação do termo de erro).XX

Alecos Papadopoulos
fonte
Você poderia relacionar esse argumento ao fato de que o inverso da matriz de variância-covariância produz a correlação parcial ?
Heisenberg
5

Uma maneira simples de visualizar é como a matriz (multivariada) análoga de , que é a variação do coeficiente de inclinação na regressão OLS simples. Pode-se até obter para essa variação omitindo a interceptação no modelo, ou seja, realizando a regressão através da origem.σ 2σ2(XTX)1 σ2σ2i=1n(XiX¯)2σ2i=1nXi2

De qualquer uma dessas fórmulas, pode-se observar que uma maior variabilidade da variável preditora levará, em geral, a uma estimativa mais precisa de seu coeficiente. Essa é a idéia frequentemente explorada no design de experimentos, onde, ao escolher valores para os preditores (não aleatórios), tenta-se determinar como o maior possível, sendo o determinante uma medida da variabilidade.(XTX)

JohnK
fonte
2

A transformação linear da variável aleatória gaussiana ajuda? Usando a regra que se, , então .A x + b N ( A μ + b , A T Σ A )xN(μ,Σ)Ax+b N(Aμ+b,ATΣA)

Supondo que é o modelo subjacente e .£ ~ N ( 0 , σY=Xβ+ϵϵN(0,σ2)

YN(Xβ,σ2)XTYN(XTXβ,Xσ2XT)(XTX)1XTYN[β,(XTX)1σ2]

Então, é apenas uma matriz de escalonamento complicado que transforma a distribuição de . Y(XTX)1XTY

Espero que tenha sido útil.

kedarps
fonte
Nada na derivação do estimador OLS e sua variação requer normalidade dos termos de erro. Tudo o que é necessário é e . (Claro, a normalidade é necessário para mostrar que OLS atinge os Cramer-Rao limite inferior, mas não é isso que destacamento do OP é sobre, não é?)E ( ε ε T ) = σ 2 I nE(ε)=0E(εεT)=σ2In
Mico
2

Vou adotar uma abordagem diferente para desenvolver a intuição subjacente à fórmula . Ao desenvolver intuição para o modelo de regressão múltipla, é útil considerar o modelo de regressão linear bivariada, viz. , é freqüentemente chamado de contribuição determinística para e é chamado de contribuição estocástica. Expressado em termos de desvios das médias da amostra , esse modelo também pode ser escrito comoyi=α+βxi+εi,Varβ^=σ2(XX)1α + β x i y i ε i

yi=α+βxi+εi,i=1,,n.
α+βxiyiεi( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε i - ˉ(x¯,y¯)
(yiy¯)=β(xix¯)+(εiε¯),i=1,,n.

Para ajudar a desenvolver a intuição, assumiremos que as suposições mais simples de Gauss-Markov são satisfeitas: estocástico, para todos , e para todos os . Como você já sabe muito bem, essas condições garantem que onde é a variação da amostra de . Em palavras, esta fórmula faz três reivindicações: "A variação de é inversamente proporcional ao tamanho da amostra , é diretamente proporcional à variação dexin ε iiid ( 0 , σ 2 ) i = 1 , , ni=1n(xix¯)2>0nεiiid(0,σ2)i=1,,nVar

Varβ^=1nσ2(Varx)1,
x β n ε xVarxxβ^nε e é inversamente proporcional à variação de ".x

Por que dobrar o tamanho da amostra, ceteris paribus , faz com que a variação de seja reduzida pela metade? Esse resultado está intimamente ligado à suposição iid aplicada a : Como se supõe que os erros individuais sejam iid, cada observação deve ser tratada ex ante como sendo igualmente informativa. E, dobrar o número de observações duplica a quantidade de informações sobre os parâmetros que descrevem a relação (assumida linear) entre e £xyσ2 ββ^εxy. Ter o dobro de informações reduz pela metade a incerteza sobre os parâmetros. Da mesma forma, deve ser fácil desenvolver a intuição de alguém por que dobrar também dobra a variação de .σ2β^

Passemos, então, à sua pergunta principal, que consiste em desenvolver intuição para a alegação de que a variação de é inversamente proporcional à variação de . Para formalizar noções, consideremos dois modelos de regressão linear bivariada separados, denominados Modelo e Modelo partir de agora. Assumiremos que ambos os modelos satisfazem as suposições da forma mais simples do teorema de Gauss-Markov e que os modelos compartilham exatamente os mesmos valores de , , e . Sob essas premissas, é fácil mostrar que x(1)(2)ctβnσ2β^x(1)(2)αβnσ2 ˉ x ( 1 ) = ˉ x ( 2 ) = ˉ xEβ^(1)=Eβ^(2)=β ; em palavras, ambos os estimadores são imparciais. Fundamentalmente, também assumiremos que , . Sem perda de generalidade, vamos assumir que . Qual estimador de terá a menor variação? Em outras palavras, ou estarão mais perto, em média , de ? Na discussão anterior, temosx¯(1)=x¯(2)=x¯Varx(1)Varx(2)βVarx(1)>Varx(2)β^β^(1) ββ^(2)βk=1,2Varβ^(k)=1nσ2/Varx(k))para . Como por suposição, segue-se que . Qual é, então, a intuição por trás desse resultado?k=1,2Varx(1)>Varx(2)Varβ^(1)<Varβ^(2)

Como, por suposição, , em média, cada estará mais longe de que é o caso, em média, para . Vamos denotar a diferença absoluta média esperada entre e por . A suposição de que implica que . O modelo de regressão linear bivariada, expresso em desvios das médias, afirma que para o Modelo e para o Modelo x ( 1 ) i ˉ xVarx(1)>Varx(2)xEu(1)x¯xEu(2)xEux¯dxVarx(1)>Varx(2)dx(1)>dx(2)dy=βdx(1)(1)dy=βdx(2)(2) . Se , isso significa que o componente determinístico do Modelo , , tem uma influência maior em do que o componente determinístico do Modelo , . Lembre-se de que os dois modelos supostamente satisfazem as suposições de Gauss-Markov, que as variações de erro são as mesmas nos dois modelos e que . Como o Modelo fornece mais informações sobre a contribuição do componente determinístico de do que o Modelo , segue-se que a precisãoβ0 0(1)βdx(1)dy(2)βdx(2)β(1)=β(2)=β(1)y( 1 ) ( 2 ) β(2)com as quais a contribuição determinística pode ser estimada é maior para o Modelo que é o caso para o Modelo . O inverso de maior precisão é uma variação menor da estimativa pontual de .(1)(2)β

É razoavelmente simples generalizar a intuição obtida do estudo do modelo de regressão simples para o modelo geral de regressão linear múltipla. A principal complicação é que, em vez de comparar as variações escalares, é necessário comparar o "tamanho" das matrizes de variância-covariância. Ter um bom conhecimento prático de determinantes, traços e autovalores de matrizes simétricas reais é muito útil neste ponto :-)

Mico
fonte
1

Digamos que temos observações (ou tamanho da amostra) parâmetros.np

A matriz de covariância dos parâmetros estimados etc. é uma representação da precisão dos parâmetros estimados.Var(β^)β^1,β^2

Se em um mundo ideal os dados puderem ser perfeitamente descritos pelo modelo, o ruído será . Agora, as entradas diagonais de correspondem a etc. A fórmula derivada para a variação concorda com a intuição de que, se o ruído for menor, as estimativas serão mais precisas.Var ( βσ2=0 0Var(β^)Var(β1^),Var(β2^)

Além disso, à medida que o número de medições aumenta, a variação dos parâmetros estimados diminui. Portanto, em geral, o valor absoluto das entradas de será maior, pois o número de colunas de é e o número de linhas de é , e cada entrada de é uma soma de pares de produtos. O valor absoluto das entradas do inverso será menor.X T n X n X T X n ( X T X ) - 1XTXXTnXnXTXn(XTX)-1

Portanto, mesmo se houver muito ruído, ainda podemos alcançar boas estimativas dos parâmetros se aumentarmos o tamanho da amostra . nβEu^n

Eu espero que isso ajude.

Referência: Seção 7.3 sobre Mínimos Quadrados: Cosentino, Carlo e Declan Bates. Controle de feedback em biologia de sistemas. Crc Press, 2011.

Dilly Minch
fonte
1

Isso se baseia na resposta de @Alecos Papadopuolos.

Lembre-se de que o resultado de uma regressão de mínimos quadrados não depende das unidades de medida de suas variáveis. Suponha que sua variável X seja uma medida de comprimento, dada em polegadas. Então redimensionar X, digamos, multiplicando por 2,54 para mudar a unidade para centímetros, não afeta materialmente as coisas. Se você reajustar o modelo, a nova estimativa de regressão será a antiga estimativa dividida por 2,54.

A matriz é a variação de X e, portanto, reflete a escala de medida de X. Se você alterar a escala, deve refletir isso em sua estimativa de , e isso é feito multiplicando pelo inverso de .β X XXXβXX

Hong Ooi
fonte