O que é erro padrão residual?

35

Ao executar um modelo de regressão múltipla em R, uma das saídas é um erro padrão residual de 0,0589 em 95.161 graus de liberdade. Eu sei que os 95.161 graus de liberdade são dados pela diferença entre o número de observações na minha amostra e o número de variáveis ​​no meu modelo. Qual é o erro padrão residual?

ustroetz
fonte
2
Esta pergunta e suas respostas podem ajudar: Por que dizemos erro padrão residual?
Antoine Vernet
Uma pergunta rápida: "erro padrão residual" é o mesmo que "desvio padrão residual"? Gelman e Hill (p.41, 2007) parecem usá-los de forma intercambiável.
JetLag 9/06/19

Respostas:

26

Um modelo de regressão ajustado usa os parâmetros para gerar previsões de estimativa pontual, que são os meios das respostas observadas se você replicar o estudo com os mesmos valores um número infinito de vezes (e quando o modelo linear for verdadeiro). A diferença entre esses valores previstos e os usados ​​para ajustar o modelo é chamada de "resíduos" que, ao replicar o processo de coleta de dados, possuem propriedades de variáveis ​​aleatórias com média de 0.X

Os resíduos observados são então utilizados para estimar subsequentemente a variabilidade nesses valores e para estimar a distribuição amostral dos parâmetros. Quando o erro padrão residual é exatamente 0, o modelo se ajusta perfeitamente aos dados (provavelmente devido ao sobreajuste). Se não for possível demonstrar que o erro padrão residual é significativamente diferente da variabilidade na resposta incondicional, há pouca evidência para sugerir que o modelo linear tenha alguma capacidade preditiva.

AdamO
fonte
3
Isso pode ter sido respondido antes. Veja se esta pergunta fornece as respostas necessárias. [Interpretação da saída lm () de R] [1] [1]: stats.stackexchange.com/questions/5135/…
doug.numbers
26

Digamos que temos a seguinte tabela ANOVA (adaptada do example(aov)comando R ):

          Df Sum Sq Mean Sq F value Pr(>F)
Model      1   37.0   37.00   0.483  0.525
Residuals  4  306.3   76.57               

Se você dividir a soma dos quadrados de qualquer fonte de variação (modelo ou resíduo) por seus respectivos graus de liberdade, obterá o quadrado médio. Especialmente para os resíduos:

306.34=76.57576.57

Então 76,57 é o quadrado médio dos resíduos, ou seja, a quantidade de variação residual (após a aplicação do modelo) em sua variável de resposta.

O erro padrão residual que você perguntou nada mais é que a raiz quadrada positiva do erro quadrado médio , ou aproximadamente 8,75. R produziria essa informação como "8,75 em 4 graus de liberdade".76.57

Waldir Leoncio
fonte
1
Votei positivamente na resposta do @AdamO porque, como uma pessoa que usa regressão diretamente com mais frequência, essa resposta foi a mais direta para mim. No entanto, aprecio esta resposta, pois ilustra a relação notacional / conceitual / metodológica entre ANOVA e regressão linear.
svannoy
12

Y=β0+β1X+ϵ
ϵX

β0β1ϵϵ .

O RSE é explicado com muita clareza em "Introdução à aprendizagem estatística".

pequeno monstro
fonte
2
ϵRSE=RSS(n2)
1
Para quem lê o epub do ISL, pode localizar a "página 66" com ctrl-f "erro padrão residual". (Os arquivos Epub não possuem números de página verdadeiros).
user2426679 24/03