Estou avaliando um modelo físico e gostaria de saber qual dos métodos devo usar aqui (entre RMSE e Coeficiente de determinação R2)
O problema é o seguinte: Eu tenho uma função que gera previsões para o valor de entrada x, . Eu também tenho a observação real desse valor que eu chamo de .yx
Minha pergunta é quais são os prós e os contras do RMSE ou . Vi os dois serem usados em documentos para o problema em que estou trabalhando.
This value shows how well future outcomes can be predicted by the model
- isso é extremamente enganador e inclinado a simplesmente errado . Não há garantia de que um alto coeficiente de determinação em um determinado modelo esteja relacionado à previsão de resultados futuros.Independentemente da medida de erro que você der, considere fornecer seu vetor de resultado completo em um apêndice. Pessoas que gostam de comparar com o seu método, mas preferem outra medição de erro, podem derivar esse valor da sua tabela.
:R2
Pode ser expressa pela fórmula fácil de entender, onde você constrói a razão da soma dos resíduos quadrados e divide pela média:
Como outras pessoas mencionaram, a escolha pode depender do seu campo e estado da arte. Existe um método amplamente aceito para comparar também? Use a mesma medida que eles e você poderá vincular diretamente os benefícios de seus métodos facilmente na discussão.
fonte
Eu usaria o seguinte como um guia muito geral para entender a diferença entre as duas métricas:
O RMSE fornece uma noção de quão próximos (ou distantes) seus valores previstos estão dos dados reais que você está tentando modelar. Isso é útil em várias aplicações em que você deseja entender a exatidão e a precisão das previsões do seu modelo (por exemplo, modelar a altura da árvore).
Prós
Contras
Prós
Contras
Obviamente, o exposto acima estará sujeito ao tamanho da amostra e ao design da amostra, e um entendimento geral de que a correlação não implica causalidade.
fonte
Existe também o MAE, Mean Absolute Error. Ao contrário do RMSE, ele não é excessivamente sensível a erros grandes. Pelo que li, alguns campos preferem o RMSE, outros o MAE. Eu gosto de usar os dois.
fonte
Na verdade, para os cientistas estatísticos conhecerem o melhor ajuste do modelo, o RMSE é muito importante para as pessoas em sua pesquisa robusta. Se o RMSE estiver muito próximo de zero, o modelo será mais bem ajustado.
O coeficiente de determinação é bom para outros cientistas, como campos agrícolas e outros. É um valor entre 0 e 1. Se for 1, 100% dos valores correspondem aos conjuntos de dados observados. Se for 0, os dados serão completamente heterogêneos. Dr.SK.Khadar Babu, Universidade VIT, Vellore, TamilNadu, Índia.
fonte
Se algum número for adicionado a cada elemento de um dos vetores, o RMSE será alterado. O mesmo se todos os elementos em um ou em ambos os vetores forem multiplicados por um número. O código R segue;
fonte
Em última análise, a diferença é apenas padronização, pois ambas levam à escolha do mesmo modelo, porque RMSE vezes o número de observações está no numerador ou R ao quadrado, e o denominador desta última é constante em todos os modelos (basta traçar uma medida contra a outro para 10 modelos diferentes).
fonte