Por que usar o erro médio quadrático da raiz (RMSE) em vez do erro absoluto médio (MAE)?
Oi
Estive investigando o erro gerado em um cálculo - inicialmente calculei o erro como um erro quadrático normalizado médio da raiz.
Olhando um pouco mais de perto, vejo que os efeitos de quadratura do erro dão mais peso a erros maiores do que os menores, inclinando a estimativa de erro em direção ao estranho estranho. Isso é bastante óbvio em retrospecto.
Então, minha pergunta - em que caso o erro médio quadrático da raiz seria uma medida de erro mais apropriada do que o erro absoluto médio? O último parece mais apropriado para mim ou estou faltando alguma coisa?
Para ilustrar isso, anexei um exemplo abaixo:
O gráfico de dispersão mostra duas variáveis com uma boa correlação,
os dois histogramas à direita registram o erro entre Y (observado) e Y (previsto) usando RMSE normalizado (em cima) e MAE (em baixo).
Não há discrepantes significativos nesses dados e o MAE apresenta um erro menor que o RMSE. Existe algum racional, além do preferencial do MAE, para usar uma medida de erro sobre a outra?
fonte
Respostas:
Isso depende da sua função de perda. Em muitas circunstâncias, faz sentido atribuir mais peso a pontos mais distantes da média - ou seja, desabilitar por 10 é mais do que o dobro da desoneração por 5. Nesse caso, o RMSE é uma medida de erro mais apropriada.
Se estar de folga às dez é apenas duas vezes pior que o de cinco, o MAE é mais apropriado.
De qualquer forma, não faz sentido comparar o RMSE e o MAE entre si, como você faz na penúltima sentença ("O MAE dá um erro menor que o RMSE"). O MAE nunca será maior que o RMSE, devido à maneira como são calculados. Eles só fazem sentido em comparação com a mesma medida de erro: você pode comparar o RMSE do método 1 ao RMSE do método 2 ou o MAE do método 1 ao MAE do método 2, mas não pode dizer que o MAE é melhor que o RMSE do método 1 porque é menor.
fonte
Aqui está outra situação em que você deseja usar o (R) MSE em vez do MAE: quando a distribuição condicional de suas observações é assimétrica e você deseja um ajuste imparcial. O (R) MSE é minimizado pela média condicional , o MAE pela mediana condicional . Portanto, se você minimizar o MAE, o ajuste estará mais próximo da mediana e tendencioso.
Claro, tudo isso realmente depende da sua função de perda.
O mesmo problema ocorre se você estiver usando o MAE ou (R) MSE para avaliar previsões ou previsões . Por exemplo, dados de vendas de baixo volume normalmente têm uma distribuição assimétrica. Se você otimizar o MAE, poderá se surpreender ao descobrir que a previsão ideal do MAE é uma previsão zero plana.
Aqui está uma pequena apresentação sobre isso e aqui está um comentário recente convidado sobre a competição de previsão M4, onde expliquei esse efeito .
fonte
N = 1e3; set.seed(1); y = rpois(N, lambda=1); yhat = c(y[2:N],0)
? As densidades preditivas de "diferença" seriam mínimas, mas o realyhat
seria inútil. É verdade que este é um caso extremo. (Eu poderia estar faltando alguma coisa óbvia, desculpas para isso com antecedência - Eu não tenho acesso ao papel apenas a apresentação.)O RMSE é uma maneira mais natural de descrever a perda na distância euclidiana. Portanto, se você fizer o gráfico em 3D, a perda será em forma de cone, como você pode ver acima em verde. Isso também se aplica a dimensões mais altas, embora seja mais difícil visualizá-lo.
O MAE pode ser considerado uma distância do quarteirão da cidade. Não é realmente tão natural uma maneira de medir a perda, como você pode ver no gráfico em azul.
fonte