Se a melhor aproximação linear (usando mínimos quadrados) dos meus pontos de dados é a linha , como posso calcular o erro de aproximação? Se o cálculo do desvio padrão da diferença entre as observações e previsões , que pode depois dizer que uma verdadeira (mas não observado) valor pertence ao intervalo ( y p = m x 0 + b ) com probabilidade ~ 68%, assumindo distribuição normal?
Esclarecer:
Fiz observações sobre uma função avaliando-a em alguns pontos x i . Ajustei essas observações a uma linha l ( x ) = m x + b . Para x 0 que eu não observei, gostaria de saber quão grande pode ser f ( x 0 ) - l ( x 0 ) . Usando o método acima, é correto dizer que f ( x 0 ) ∈ [ l ( x 0 com prob. ~ 68%?
Respostas:
O @whuber apontou três boas respostas, mas talvez eu ainda possa escrever algo de valor. Sua pergunta explícita, como eu a entendo, é:
Dada a minha modeloy^i=m^xi+b^ (aviso Eu adicionado chapéus '') , e assumindo que os resíduos são normalmente distribuídos, , que podem prever que um ainda resposta não observada, y n e w , com um valor preditivo conhecida, x n e w , vai cair dentro do intervalo ( y - σ e , y + σN(0,σ^2e) ynew xnew , com probabilidade 68%?(y^−σe,y^+σe)
Intuitivamente, a resposta parece que deveria ser 'sim', mas a resposta verdadeira é talvez . Este será o caso quando os parâmetros (ou seja, & σ ) forem conhecidos e sem erros. Como você estimou esses parâmetros, precisamos levar em consideração a incerteza deles.m,b, σ
Vamos primeiro pensar no desvio padrão de seus resíduos. Como isso é calculado a partir dos seus dados, pode haver algum erro na estimativa. Como resultado, a distribuição você deve usar para formar o seu intervalo de previsão deve ser , não o normal. No entanto, como ot converge rapidamente para o normal, é menos provável que seja um problema na prática.tdf error t
Having calculated the correct value in this manner, we can then use it with the appropriatet distribution as noted above.
fonte