Explicação intuitiva do termo

18

Se é a classificação completa, o inverso de existe e obtemos a estimativa de mínimos quadrados: e $X$ $X^TX$

\hat{β} = (X^{T} X)^{- 1} X Y

$\hat\beta = (X^TX)^{-1}XY$

Var (\hat{β}) = σ^{2} (X^{T} X)^{- 1}

$\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1}$

Como podemos explicar intuitivamente na fórmula de variância? A técnica de derivação é clara para mim. $(X^TX)^{-1}$

regression variance least-squares Daniel Yefimov
fonte

3

Você pode adicionar uma observação para salientar que a fórmula que você definiu para a matriz de variância-covariância de - assumindo que seja estimada pelo OLS - estará correta somente se o condições do teorema de Gauss-Markov são satisfeitas e, em particular, somente se a matriz de variância-covariância dos termos de erro for dada por , onde é a matriz de identidade e é o número de linhas de (e ). A fórmula que você forneceu não está correta para o caso mais geral de erros não esféricos.

\hat{β}

$\hat{\beta}$

\hat{β}

$\hat{\beta}$

σ^{2} I_{n}

$\sigma^2 I_n$

I_{n}

$I_n$

n \times n

$n\times n$

n

$n$

X

$X$

Y

$Y$

Mico

13

Considere uma regressão simples, sem um termo constante, e onde o único regressor esteja centrado na média da amostra. Então é ( vezes) sua variação de amostra e é recirpocal. Portanto, quanto maior a variância = variabilidade no regressor, menor a variância do estimador de coeficiente: quanto mais variabilidade tivermos na variável explicativa, mais precisamente podemos estimar o coeficiente desconhecido. $X'X$ $n$ $(X'X)^{-1}$

Por quê? Como quanto mais variável é um regressor, mais informações ele contém. Quando os regressores são muitos, isso se generaliza ao inverso de sua matriz de variância-covariância, que também leva em consideração a co-variabilidade dos regressores. No caso extremo em que é diagonal, a precisão de cada coeficiente estimado depende apenas da variação / variabilidade do regressor associado (dada a variação do termo de erro). $X'X$

Alecos Papadopoulos
fonte

Você poderia relacionar esse argumento ao fato de que o inverso da matriz de variância-covariância produz a correlação parcial ?

Heisenberg

5

Uma maneira simples de visualizar é como a matriz (multivariada) análoga de , que é a variação do coeficiente de inclinação na regressão OLS simples. Pode-se até obter para essa variação omitindo a interceptação no modelo, ou seja, realizando a regressão através da origem. $\sigma^2 \left(\mathbf{X}^{T} \mathbf{X} \right)^{-1}$ $\frac{\sigma^2}{\sum_{i=1}^n \left(X_i-\bar{X}\right)^2}$ $\frac{\sigma^2}{\sum_{i=1}^n X_i^2}$

De qualquer uma dessas fórmulas, pode-se observar que uma maior variabilidade da variável preditora levará, em geral, a uma estimativa mais precisa de seu coeficiente. Essa é a idéia frequentemente explorada no design de experimentos, onde, ao escolher valores para os preditores (não aleatórios), tenta-se determinar como o maior possível, sendo o determinante uma medida da variabilidade. $\left(\mathbf{X}^{T} \mathbf{X} \right)$

JohnK
fonte

2

A transformação linear da variável aleatória gaussiana ajuda? Usando a regra que se, , então . $x \sim \mathcal{N}(\mu,\Sigma)$ $Ax + b ~ \sim \mathcal{N}(A\mu + b,A^T\Sigma A)$

Supondo que é o modelo subjacente e . $Y = X\beta + \epsilon$ $\epsilon \sim \mathcal{N}(0, \sigma^2)$

∴ Y \sim N (X β, σ^{2}) X^{T} Y \sim N (X^{T} X β, X σ^{2} X^{T}) (X^{T} X)^{- 1} X^{T} Y \sim N [β, (X^{T} X)^{- 1} σ^{2}]

$\therefore Y \sim \mathcal{N}(X\beta,\sigma^2)\\ X^TY \sim \mathcal{N}(X^TX\beta, X\sigma^2 X^T)\\ (X^TX)^{-1}X^TY \sim \mathcal{N}[\beta,(X^TX)^{-1} \sigma^2]$

Então, é apenas uma matriz de escalonamento complicado que transforma a distribuição de . $(X^TX)^{-1}X^T$ $Y$

Espero que tenha sido útil.

kedarps
fonte

Nada na derivação do estimador OLS e sua variação requer normalidade dos termos de erro. Tudo o que é necessário é e . (Claro, a normalidade é necessário para mostrar que OLS atinge os Cramer-Rao limite inferior, mas não é isso que destacamento do OP é sobre, não é?)

E (ε) = 0

$E(\varepsilon)=0$

E (ε ε^{T}) = σ^{2} I_{n}

$E(\varepsilon\varepsilon^T)=\sigma^2 I_n$

Mico

2

Vou adotar uma abordagem diferente para desenvolver a intuição subjacente à fórmula . Ao desenvolver intuição para o modelo de regressão múltipla, é útil considerar o modelo de regressão linear bivariada, viz. , é freqüentemente chamado de contribuição determinística para e é chamado de contribuição estocástica. Expressado em termos de desvios das médias da amostra , esse modelo também pode ser escrito como $\text{Var}\,\hat{\beta}=\sigma^2 (X'X)^{-1}$

y_{i} = α + β x_{i} + ε_{i}, i = 1, \dots, n .

$y_i=\alpha+\beta x_i + \varepsilon_i, \quad i=1,\ldots,n.$

α + β x_{i}

$\alpha+\beta x_i$

y_{i}

$y_i$

ε_{i}

$\varepsilon_i$

(\bar{x}, \bar{y})

$(\bar{x},\bar{y})$

(y_{i} - \bar{y}) = β (x_{i} - \bar{x}) + (ε_{i} - \bar{ε}), i = 1, \dots, n .

$(y_i-\bar{y}) = \beta(x_i-\bar{x})+(\varepsilon_i-\bar{\varepsilon}), \quad i=1,\ldots,n.$

Para ajudar a desenvolver a intuição, assumiremos que as suposições mais simples de Gauss-Markov são satisfeitas: estocástico, para todos , e para todos os . Como você já sabe muito bem, essas condições garantem que onde é a variação da amostra de . Em palavras, esta fórmula faz três reivindicações: "A variação de é inversamente proporcional ao tamanho da amostra , é diretamente proporcional à variação de $x_i$ $\sum_{i=1}^n(x_i-\bar{x})^2>0$ $n$ $\varepsilon_i \sim \text{iid}(0,\sigma^2)$ $i=1,\ldots,n$

Var \hat{β} = \frac{1}{n} σ^{2} (Var x)^{- 1},

$\text{Var}\,\hat{\beta}=\tfrac{1}{n}\sigma^2(\text{Var}\,x)^{-1}\text{,}$

Var x

$\text{Var}\,x$

x

$x$

\hat{β}

$\hat{\beta}$

n

$n$

ε

$\varepsilon$ e é inversamente proporcional à variação de ".

x

$x$

Por que dobrar o tamanho da amostra, ceteris paribus , faz com que a variação de seja reduzida pela metade? Esse resultado está intimamente ligado à suposição iid aplicada a : Como se supõe que os erros individuais sejam iid, cada observação deve ser tratada ex ante como sendo igualmente informativa. E, dobrar o número de observações duplica a quantidade de informações sobre os parâmetros que descrevem a relação (assumida linear) entre e $\hat{\beta}$ $\varepsilon$ $x$ $y$ . Ter o dobro de informações reduz pela metade a incerteza sobre os parâmetros. Da mesma forma, deve ser fácil desenvolver a intuição de alguém por que dobrar também dobra a variação de . $\sigma^2$ $\hat{\beta}$

Passemos, então, à sua pergunta principal, que consiste em desenvolver intuição para a alegação de que a variação de é inversamente proporcional à variação de . Para formalizar noções, consideremos dois modelos de regressão linear bivariada separados, denominados Modelo e Modelo partir de agora. Assumiremos que ambos os modelos satisfazem as suposições da forma mais simples do teorema de Gauss-Markov e que os modelos compartilham exatamente os mesmos valores de , , e . Sob essas premissas, é fácil mostrar que $\hat{\beta}$ $x$ $(1)$ $(2)$ $\alpha$ $\beta$ $n$ $\sigma^2$ $\text{E}\,\hat{\beta}{}^{(1)}=\text{E}\,\hat{\beta}{}^{(2)}=\beta$ ; em palavras, ambos os estimadores são imparciais. Fundamentalmente, também assumiremos que , . Sem perda de generalidade, vamos assumir que . Qual estimador de terá a menor variação? Em outras palavras, ou estarão mais perto, em média , de ? Na discussão anterior, temos $\bar{x}^{(1)}=\bar{x}^{(2)}=\bar{x}$ $\text{Var}\,x^{(1)}\ne \text{Var}\,x^{(2)}$ $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $\hat{\beta}$ $\hat{\beta}{}^{(1)}$ $\hat{\beta}{}^{(2)}$ $\beta$ $\text{Var}\,\hat{\beta} {}^{(k)} =\tfrac{1}{n}\sigma^2/\text{Var}\,x{}^{(k)})$ para . Como por suposição, segue-se que . Qual é, então, a intuição por trás desse resultado? $k=1,2$ $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $\text{Var}\,\hat{\beta}{}^{(1)} <\text{Var}\,\hat{\beta}{}^{(2)}$

Como, por suposição, , em média, cada estará mais longe de que é o caso, em média, para . Vamos denotar a diferença absoluta média esperada entre e por . A suposição de que implica que . O modelo de regressão linear bivariada, expresso em desvios das médias, afirma que para o Modelo e para o Modelo $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $x_i^{(1)}$ $\bar{x}$ $x_i^{(2)}$ $x_i$ $\bar{x}$ $d_x$ $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $d_x^{(1)} >d_x^{(2)}$ $d_y = \beta d_x^{(1)}$ $(1)$ $d_y = \beta d_x^{(2)}$ $(2)$ . Se , isso significa que o componente determinístico do Modelo , , tem uma influência maior em do que o componente determinístico do Modelo , . Lembre-se de que os dois modelos supostamente satisfazem as suposições de Gauss-Markov, que as variações de erro são as mesmas nos dois modelos e que . Como o Modelo fornece mais informações sobre a contribuição do componente determinístico de do que o Modelo , segue-se que a precisão $\beta\ne0$ $(1)$ $\beta d_x^{(1)}$ $d_y$ $(2)$ $\beta d_x^{(2)}$ $\beta^{(1)}=\beta^{(2)}=\beta$ $(1)$ $y$ $(2)$ com as quais a contribuição determinística pode ser estimada é maior para o Modelo que é o caso para o Modelo . O inverso de maior precisão é uma variação menor da estimativa pontual de . $(1)$ $(2)$ $\beta$

É razoavelmente simples generalizar a intuição obtida do estudo do modelo de regressão simples para o modelo geral de regressão linear múltipla. A principal complicação é que, em vez de comparar as variações escalares, é necessário comparar o "tamanho" das matrizes de variância-covariância. Ter um bom conhecimento prático de determinantes, traços e autovalores de matrizes simétricas reais é muito útil neste ponto :-)

Mico
fonte

1

Digamos que temos observações (ou tamanho da amostra) parâmetros. $n$ $p$

A matriz de covariância dos parâmetros estimados etc. é uma representação da precisão dos parâmetros estimados. $\operatorname{Var}(\hat{\beta})$ $\hat{\beta}_1,\hat{\beta}_2$

Se em um mundo ideal os dados puderem ser perfeitamente descritos pelo modelo, o ruído será . Agora, as entradas diagonais de correspondem a etc. A fórmula derivada para a variação concorda com a intuição de que, se o ruído for menor, as estimativas serão mais precisas. $\sigma^2= 0$ $\operatorname{Var}(\hat{\beta})$ $\operatorname{Var}(\hat{\beta_1}),\operatorname{Var}(\hat{\beta_2})$

Além disso, à medida que o número de medições aumenta, a variação dos parâmetros estimados diminui. Portanto, em geral, o valor absoluto das entradas de será maior, pois o número de colunas de é e o número de linhas de é , e cada entrada de é uma soma de pares de produtos. O valor absoluto das entradas do inverso será menor. $X^TX$ $X^T$ $n$ $X$ $n$ $X^TX$ $n$ $(X^TX)^{-1}$

Portanto, mesmo se houver muito ruído, ainda podemos alcançar boas estimativas dos parâmetros se aumentarmos o tamanho da amostra . $\hat{\beta_i}$ $n$

Eu espero que isso ajude.

Referência: Seção 7.3 sobre Mínimos Quadrados: Cosentino, Carlo e Declan Bates. Controle de feedback em biologia de sistemas. Crc Press, 2011.

Dilly Minch
fonte

1

Isso se baseia na resposta de @Alecos Papadopuolos.

Lembre-se de que o resultado de uma regressão de mínimos quadrados não depende das unidades de medida de suas variáveis. Suponha que sua variável X seja uma medida de comprimento, dada em polegadas. Então redimensionar X, digamos, multiplicando por 2,54 para mudar a unidade para centímetros, não afeta materialmente as coisas. Se você reajustar o modelo, a nova estimativa de regressão será a antiga estimativa dividida por 2,54.

A matriz é a variação de X e, portanto, reflete a escala de medida de X. Se você alterar a escala, deve refletir isso em sua estimativa de , e isso é feito multiplicando pelo inverso de . $X'X$ $\beta$ $X'X$

Hong Ooi
fonte

Explicação intuitiva do termo

Respostas: