Se é a classificação completa, o inverso de existe e obtemos a estimativa de mínimos quadrados: eX t X β = ( X T X ) - 1 X Y Var ( β ) = σ 2 ( X T X )
Como podemos explicar intuitivamente na fórmula de variância? A técnica de derivação é clara para mim.
regression
variance
least-squares
Daniel Yefimov
fonte
fonte
Respostas:
Considere uma regressão simples, sem um termo constante, e onde o único regressor esteja centrado na média da amostra. Então é ( vezes) sua variação de amostra e é recirpocal. Portanto, quanto maior a variância = variabilidade no regressor, menor a variância do estimador de coeficiente: quanto mais variabilidade tivermos na variável explicativa, mais precisamente podemos estimar o coeficiente desconhecido. n ( X ′ X )X′X n (X′X)−1
Por quê? Como quanto mais variável é um regressor, mais informações ele contém. Quando os regressores são muitos, isso se generaliza ao inverso de sua matriz de variância-covariância, que também leva em consideração a co-variabilidade dos regressores. No caso extremo em que é diagonal, a precisão de cada coeficiente estimado depende apenas da variação / variabilidade do regressor associado (dada a variação do termo de erro).X′X
fonte
Uma maneira simples de visualizar é como a matriz (multivariada) análoga de , que é a variação do coeficiente de inclinação na regressão OLS simples. Pode-se até obter para essa variação omitindo a interceptação no modelo, ou seja, realizando a regressão através da origem.σ 2σ2( XTX )- 1 σ2σ2∑ni = 1( XEu- X¯)2 σ2∑ni = 1X2Eu
De qualquer uma dessas fórmulas, pode-se observar que uma maior variabilidade da variável preditora levará, em geral, a uma estimativa mais precisa de seu coeficiente. Essa é a idéia frequentemente explorada no design de experimentos, onde, ao escolher valores para os preditores (não aleatórios), tenta-se determinar como o maior possível, sendo o determinante uma medida da variabilidade.( XTX )
fonte
A transformação linear da variável aleatória gaussiana ajuda? Usando a regra que se, , então .A x + b ∼ N ( A μ + b , A T Σ A )x ∼ N( μ , Σ ) A x + b ∼ N ( A μ + b , ATΣ A )
Supondo que é o modelo subjacente e .£ ~ N ( 0 , σY= Xβ+ ϵ ε ~ N( 0 , σ2)
Então, é apenas uma matriz de escalonamento complicado que transforma a distribuição de . Y( XTX)- 1XT Y
Espero que tenha sido útil.
fonte
Vou adotar uma abordagem diferente para desenvolver a intuição subjacente à fórmula . Ao desenvolver intuição para o modelo de regressão múltipla, é útil considerar o modelo de regressão linear bivariada, viz. , é freqüentemente chamado de contribuição determinística para e é chamado de contribuição estocástica. Expressado em termos de desvios das médias da amostra , esse modelo também pode ser escrito comoyi=α+βxi+εi,Varβ^= σ2( X′X)- 1 α + β x i y i ε i
Para ajudar a desenvolver a intuição, assumiremos que as suposições mais simples de Gauss-Markov são satisfeitas: estocástico, para todos , e para todos os . Como você já sabe muito bem, essas condições garantem que onde é a variação da amostra de . Em palavras, esta fórmula faz três reivindicações: "A variação de é inversamente proporcional ao tamanho da amostra , é diretamente proporcional à variação dexEu n ε i ∼ iid ( 0 , σ 2 ) i = 1 , … , n∑ni = 1( xEu- x¯)2> 0 n εEu~ Iid ( 0 , σ2) i = 1 , … , n Var
Por que dobrar o tamanho da amostra, ceteris paribus , faz com que a variação de seja reduzida pela metade? Esse resultado está intimamente ligado à suposição iid aplicada a : Como se supõe que os erros individuais sejam iid, cada observação deve ser tratada ex ante como sendo igualmente informativa. E, dobrar o número de observações duplica a quantidade de informações sobre os parâmetros que descrevem a relação (assumida linear) entre e £xyσ2 ββ^ ε x y . Ter o dobro de informações reduz pela metade a incerteza sobre os parâmetros. Da mesma forma, deve ser fácil desenvolver a intuição de alguém por que dobrar também dobra a variação de .σ2 β^
Passemos, então, à sua pergunta principal, que consiste em desenvolver intuição para a alegação de que a variação de é inversamente proporcional à variação de . Para formalizar noções, consideremos dois modelos de regressão linear bivariada separados, denominados Modelo e Modelo partir de agora. Assumiremos que ambos os modelos satisfazem as suposições da forma mais simples do teorema de Gauss-Markov e que os modelos compartilham exatamente os mesmos valores de , , e . Sob essas premissas, é fácil mostrar que x(1)(2)ctβnσ2β^ x ( 1 ) ( 2 ) α β n σ2 ˉ x ( 1 ) = ˉ x ( 2 ) = ˉ xEβ^( 1 )= Eβ^(2 )= β ; em palavras, ambos os estimadores são imparciais. Fundamentalmente, também assumiremos que , . Sem perda de generalidade, vamos assumir que . Qual estimador de terá a menor variação? Em outras palavras, ou estarão mais perto, em média , de ? Na discussão anterior, temosx¯( 1 )= x¯( 2 )= x¯ Varx( 1 )≠ Varx( 2 ) βVarx( 1 )> Varx( 2 ) β^ β^( 1 ) ββ^( 2 ) β k=1,2Varβ^( K )= 1nσ2/ Varx( K )) para . Como por suposição, segue-se que . Qual é, então, a intuição por trás desse resultado?k = 1 , 2 Varx( 1 )> Varx( 2 ) Varβ^( 1 )< Varβ^( 2 )
Como, por suposição, , em média, cada estará mais longe de que é o caso, em média, para . Vamos denotar a diferença absoluta média esperada entre e por . A suposição de que implica que . O modelo de regressão linear bivariada, expresso em desvios das médias, afirma que para o Modelo e para o Modelo x ( 1 ) i ˉ xVarx( 1 )> Varx( 2 ) x( 1 )Eu x¯ x( 2 )Eu xEu x¯ dx Varx( 1 )> Varx( 2 ) d( 1 )x> d( 2 )x dy= βd( 1 )x ( 1 ) dy= βd( 2 )x ( 2 ) . Se , isso significa que o componente determinístico do Modelo , , tem uma influência maior em do que o componente determinístico do Modelo , . Lembre-se de que os dois modelos supostamente satisfazem as suposições de Gauss-Markov, que as variações de erro são as mesmas nos dois modelos e que . Como o Modelo fornece mais informações sobre a contribuição do componente determinístico de do que o Modelo , segue-se que a precisãoβ≠ 0 ( 1 ) βd( 1 )x dy ( 2 ) βd( 2 )x β( 1 )= β( 2 )= β ( 1 ) y ( 1 ) ( 2 ) β( 2 ) com as quais a contribuição determinística pode ser estimada é maior para o Modelo que é o caso para o Modelo . O inverso de maior precisão é uma variação menor da estimativa pontual de .( 1 ) ( 2 ) β
É razoavelmente simples generalizar a intuição obtida do estudo do modelo de regressão simples para o modelo geral de regressão linear múltipla. A principal complicação é que, em vez de comparar as variações escalares, é necessário comparar o "tamanho" das matrizes de variância-covariância. Ter um bom conhecimento prático de determinantes, traços e autovalores de matrizes simétricas reais é muito útil neste ponto :-)
fonte
Digamos que temos observações (ou tamanho da amostra) parâmetros.n p
A matriz de covariância dos parâmetros estimados etc. é uma representação da precisão dos parâmetros estimados.Var( β^) β^1, β^2
Se em um mundo ideal os dados puderem ser perfeitamente descritos pelo modelo, o ruído será . Agora, as entradas diagonais de correspondem a etc. A fórmula derivada para a variação concorda com a intuição de que, se o ruído for menor, as estimativas serão mais precisas.Var ( βσ2= 0 Var( β^) Var( β1^) , Var( β2^)
Além disso, à medida que o número de medições aumenta, a variação dos parâmetros estimados diminui. Portanto, em geral, o valor absoluto das entradas de será maior, pois o número de colunas de é e o número de linhas de é , e cada entrada de é uma soma de pares de produtos. O valor absoluto das entradas do inverso será menor.X T n X n X T X n ( X T X ) - 1XTX XT n X n XTX n ( XTX)- 1
Portanto, mesmo se houver muito ruído, ainda podemos alcançar boas estimativas dos parâmetros se aumentarmos o tamanho da amostra . nβEu^ n
Eu espero que isso ajude.
Referência: Seção 7.3 sobre Mínimos Quadrados: Cosentino, Carlo e Declan Bates. Controle de feedback em biologia de sistemas. Crc Press, 2011.
fonte
Isso se baseia na resposta de @Alecos Papadopuolos.
Lembre-se de que o resultado de uma regressão de mínimos quadrados não depende das unidades de medida de suas variáveis. Suponha que sua variável X seja uma medida de comprimento, dada em polegadas. Então redimensionar X, digamos, multiplicando por 2,54 para mudar a unidade para centímetros, não afeta materialmente as coisas. Se você reajustar o modelo, a nova estimativa de regressão será a antiga estimativa dividida por 2,54.
A matriz é a variação de X e, portanto, reflete a escala de medida de X. Se você alterar a escala, deve refletir isso em sua estimativa de , e isso é feito multiplicando pelo inverso de .β X ′ XX′X β X′X
fonte