Tirei uma amostra de pontos de dados de uma população. Cada um desses pontos tem um valor verdadeiro (conhecido da verdade do terreno) e um valor estimado. Em seguida, calculo o erro para cada ponto amostrado e, em seguida, calculo o RMSE da amostra.
Como deduzir então algum tipo de intervalo de confiança em torno desse RMSE, com base no tamanho da amostra ?
Se eu estivesse usando a média, e não o RMSE, não teria problemas em fazer isso, pois posso usar a equação padrão
mas não sei se isso é válido para o RMSE e não a média. Existe alguma maneira de eu adaptar isso?
(Vi essa pergunta , mas não tenho problemas em saber se minha população está normalmente distribuída, e é com isso que a resposta lida)
confidence-interval
robintw
fonte
fonte
Respostas:
Com um raciocínio semelhante ao apresentado aqui , posso responder a sua pergunta sob certas condições.
Let ser o seu verdadeiro valor para o i t h ponto de dados e x i o valor estimado. Se assumirmos que as diferenças entre os valores estimado e verdadeiro têmxi ith x^i
média zero (isto é, o x i são distribuídos em torno x i )x^i xi
siga uma distribuição normal
e todos têm o mesmo desvio padrãoσ
em resumo:
então você realmente quer um intervalo de confiança para .σ
Se as premissas acima forem verdadeiras, segue umadistribuiçãoχ 2 n comn(nãon-1) graus de liberdade. Isso significa
Portanto, é o seu intervalo de confiança.
Aqui está um programa python que simula sua situação
Espero que ajude.
Se você não tem certeza se as suposições se aplicam ou se deseja comparar o que escrevi com um método diferente, você sempre pode tentar iniciar .
fonte
The reasoning in the answer by fabee seems correct if applied to the STDE (standard deviation of the error), not the RMSE. Using similar nomenclature,i=1,…,n is an index representing each record of data, xi is the true value and x^i is a measurement or prediction.
The errorϵi , BIAS, MSE (mean squared error) and RMSE are given by:
Agreeing on these definitions, the BIAS corresponds to the sample mean ofϵ , but MSE is not the biased sample variance. Instead:
Thus, in my opinion the confidence intervals established by fabee refer to the sample standard deviation ofϵ , STDE. Similarly, confidence intervals may be established for the BIAS based on the z-score (or t-score if n<30 ) and STDE/n−−√ .
fonte
Following Faaber 1999, the uncertainty of RMSE is given as
fonte