Como interpretar erros padrão de coeficiente em regressão linear?

26

Eu estou querendo saber como interpretar os erros padrão do coeficiente de uma regressão ao usar a função de exibição em R.

Por exemplo, na seguinte saída:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

Um erro padrão mais alto implica maior significado?

Também para o desvio padrão residual, um valor mais alto significa maior spread, mas o R ao quadrado mostra um ajuste muito próximo, isso não é uma contradição?

acima
fonte

Respostas:

52

As estimativas de parâmetros, como uma média amostral ou um coeficiente de regressão OLS, são estatísticas amostrais que usamos para extrair inferências sobre os parâmetros populacionais correspondentes. Os parâmetros populacionais são com o que realmente nos importamos, mas como não temos acesso a toda a população (geralmente assumida como infinita), devemos usar essa abordagem. No entanto, existem certos fatos desconfortáveis ​​que acompanham essa abordagem. Por exemplo, se pegássemos outra amostra e calculássemos a estatística para estimar o parâmetro novamente, quase certamente descobriríamos que ele é diferente. Além disso, nenhuma estimativa provavelmente corresponderá ao valor verdadeiro do parâmetro que queremos saber. De fato, se fizermos isso repetidamente, continuando a amostrar e estimar para sempre, descobriríamos que a frequência relativa dos diferentes valores estimados seguia uma distribuição de probabilidade. O teorema do limite central sugere que essa distribuição provavelmente seja normal. Precisamos de uma maneira de quantificar a quantidade de incerteza nessa distribuição. É isso que o erro padrão faz por você.

No seu exemplo, você deseja conhecer a inclinação da relação linear entre x1 e y na população, mas você só tem acesso à sua amostra. Na sua amostra, essa inclinação é 0,51, mas sem saber quanta variabilidade existe na distribuição de amostragem correspondente , é difícil saber o que fazer com esse número. O erro padrão, 0,05 neste caso, é o desvio padrão dessa distribuição de amostragem. Para calcular a significância, divida a estimativa pelo SE e procure o quociente na tabela. Assim, SEs maiores significam menor significância.

O desvio padrão residual não tem nada a ver com as distribuições de amostragem de suas pistas. É apenas o desvio padrão da sua amostra condicional ao seu modelo. Não há contradição, nem poderia haver. Quanto à forma como você tem um SD maior com um R ^ 2 alto e apenas 40 pontos de dados, eu acho que você tem o oposto da restrição de intervalo - seus valores x estão espalhados muito amplamente.

- Reinstate Monica
fonte
Resposta excelente e muito clara! Então, basicamente, para a segunda pergunta, o SD indica dispersão horizontal e o R ^ 2 indica o ajuste geral ou dispersão vertical?
upabove
7
@ Dbr, prazer em ajudar. Normalmente, pensamos na variável de resposta como estando no eixo vertical e a variável preditora no eixo horizontal. Com essa configuração, tudo é vertical - a regressão está minimizando as distâncias verticais entre as previsões e a variável de resposta (SSE). Da mesma forma, o DP residual é uma medida de dispersão vertical depois de ter contabilizado os valores previstos. Finalmente, R ^ 2 é a razão entre a dispersão vertical de suas previsões e a dispersão vertical total de seus dados brutos.
gung - Restabelece Monica