Por que dizemos "erro padrão residual"?

14

Um erro padrão estimado é o desvio padrão σ ( θ ) de um estimador θ para um parâmetro θ .σ^(θ^)θ^θ

Por que o desvio padrão estimado dos resíduos é chamado de "erro padrão residual" (por exemplo, na saída da summary.lmfunção de R ) e não "desvio padrão residual"? Que estimativa de parâmetro nós equipamos com um erro padrão aqui?

Consideramos cada resíduo como um estimador para o termo de erro "seu" e estimamos o erro padrão "agrupado" de todos esses estimadores?

Michael M
fonte
6
Eu acho que é uma coisa de R. Eu não acho que outro software necessariamente use esse fraseado, 'desvio padrão residual' é comum em livros didáticos, por exemplo. Não tenho uma resposta, mas sempre achei estranho o fato de R usar essa frase.
gung - Restabelece Monica
@ gung: essa poderia ser a explicação! Quando pesquisando "erro padrão residual" entre aspas eu recebo apenas 0,1% dos hits do que sem aspas ...
Michael M
Eu poderia colocar isso como uma (não) resposta, se você preferir.
gung - Restabelece Monica
1
@gung é engraçado como o uso de software específico molda seu pensamento: eu nunca chamaria de "sd residual" - resíduos não são dados, mas erros, portanto, erro residual parece ser o nome adequado. Mas se você pensar sobre isso, realmente parece uma coisa de R.
Tim
2
@ Tim, pode ser considerada corretamente uma estimativa do desvio padrão dos erros , mas os resíduos não são tecnicamente os próprios erros. Tampouco é o erro padrão do erro SD, pelo que vale a pena.
gung - Restabelece Monica

Respostas:

12

Eu acho que o fraseado é específico para a summary.lm()saída de R. Observe que o valor subjacente é realmente chamado "sigma" ( summary.lm()$sigma). Eu não acho que outro software necessariamente use esse nome para o desvio padrão dos resíduos. Além disso, a expressão "desvio padrão residual" é comum em livros didáticos, por exemplo. Não sei como foi o fraseado usado na summary.lm()saída de R , mas sempre achei estranho.

Repor a Monica
fonte
Qual é a summary.lm(reg)$sigmadiferença sd(reg$residuals)?
ataque aéreo
3
@ AndréTerra, o grau correto de liberdade é n - p, que é o que o resumo usa. sd usa var que usa n - 1 graus de liberdade. Se você calcular manualmente o desvio padrão dos resíduos dividindo por n - p, obterá a mesma resposta que o resumo fornece.
JDub #
3
Para corroborar o gung, cito a partir da documentação do R stats::sigma: O equívoco "Erro padrão residual" fez parte de muitas saídas R (e S) para serem facilmente alteradas lá.
NRH
2

No meu treinamento em econometria, ele é chamado de "erro padrão residual" porque é uma estimativa do "desvio padrão residual" real. Veja esta pergunta relacionada que corrobora essa terminologia.

Uma pesquisa no Google pelo termo erro padrão residual também mostra muitos acessos; portanto, isso não é de forma alguma uma raridade de R. Tentei ambos os termos com aspas e ambos aparecem aproximadamente 60.000 vezes.

Heisenberg
fonte
Interessante. Mas por que você chamaria uma estimativa de um desvio padrão de qualquer variável aleatória (como um termo de erro; e não um estimador específico) como "erro padrão"?
Michael M
Meu pensamento é que precisamos ter um nome para a estimativa (para diferenciar do valor real), qualquer nome é tão bom quanto outro. Mas certamente alguém com mais conhecimento sobre a etimologia pode oferecer uma razão melhor. Observe que há definitivamente um paralelo com o erro padrão do coeficiente, que é a estimativa do desvio padrão da estimativa do coeficiente.
Heisenberg
0

Simplificando, o erro padrão da amostra é uma estimativa de quão provável é a média da amostra da média da população, enquanto o desvio padrão da amostra é o grau em que os indivíduos da amostra diferem da média da amostra.

Erro padrão - Wikipedia, a enciclopédia livre

user629019
fonte
6
Isso é verdade, mas na verdade não responde à pergunta. O que R chama de "erro padrão residual" não é "uma estimativa de quão longe a média da amostra provavelmente está da média da população".
gung - Restabelece Monica
0

Um modelo de regressão ajustado usa os parâmetros para gerar previsões de estimativa pontual, que são os meios das respostas observadas se você replicar o estudo com os mesmos valores XX um número infinito de vezes ( quando o modelo linear for verdadeiro ).

A diferença entre esses valores previstos e os usados ​​para ajustar o modelo é denominada " Residuais " que, ao replicar o processo de coleta de dados, possuem propriedades de variáveis ​​aleatórias com 0 médias. Os resíduos observados são então utilizados para estimar subsequentemente a variabilidade nesses valores e para estimar a distribuição amostral dos parâmetros.

Nota:

Quando o erro padrão residual é exatamente 0, o modelo se ajusta perfeitamente aos dados (provavelmente devido ao sobreajuste).

Se não for possível demonstrar que o erro padrão residual é significativamente diferente da variabilidade na resposta incondicional, há pouca evidência para sugerir que o modelo linear tenha alguma capacidade preditiva.

Abhishek Jaiswal
fonte