Por que usar uma certa medida de erro de previsão (por exemplo, MAD) em oposição a outra (por exemplo, MSE)?

15

MAD = Desvio Absoluto Médio MSE = Erro Quadrático Médio

Vi sugestões de vários lugares em que o MSE é usado, apesar de algumas qualidades indesejáveis ​​(por exemplo , http://www.stat.nus.edu.sg/~staxyc/T12.pdf , que afirma na p8 "Acredita-se que MAD é um critério melhor que o MSE. No entanto, matematicamente o MSE é mais conveniente que o MAD. ")

Existe mais do que isso? Existe um artigo que analise minuciosamente as situações nas quais vários métodos de medir o erro de previsão são mais / menos apropriados? Minhas pesquisas no Google não revelaram nada.

Uma pergunta semelhante a essa foi feita em /programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde , e o usuário foi solicitado a postar em stats.stackexchange.com, mas acho que nunca.

user1205901 - Restabelecer Monica
fonte
2
MAD é tipicamente desvio absoluto médio em vez de média, não?
Brian D
@ BrianD: na comunidade estatística mais ampla, você está certo. Na comunidade de previsão mais restrita , "MAD" é invariavelmente o "desvio médio absoluto", AKA MAE .
S. Kolassa - Restabelece Monica

Respostas:

23

Para decidir qual medida de erro de previsão pontual usar, precisamos dar um passo atrás. Observe que não conhecemos o resultado futuro perfeitamente, nem jamais saberemos. Portanto, o resultado futuro segue uma distribuição de probabilidade . Alguns métodos de previsão produzem explicitamente uma distribuição completa, e outros não - mas estão sempre lá, mesmo que implicitamente.

Agora, queremos ter uma boa medida de erro para uma previsão de pontos . Tal previsão pontual Ft é nossa tentativa de resumir o que sabemos sobre a distribuição futura (isto é, a distribuição preditiva) no tempo t usando um único número, a chamada funcionalidade da densidade futura. A medida de erro, então, é uma maneira de avaliar a qualidade desse resumo de número único.

Portanto, você deve escolher uma medida de erro que recompense "bons" resumos de um número de densidades futuras (desconhecidas, possivelmente previstas, mas possivelmente implícitas).

O desafio é que diferentes medidas de erro sejam minimizadas por diferentes funcionais. O MSE esperado é minimizado pelo valor esperado da distribuição futura. O MAD esperado é minimizado pela mediana da distribuição futura. Portanto, se você calibrar suas previsões para minimizar o MAE, sua previsão pontual será a mediana futura, não o valor esperado futuro, e suas previsões serão tendenciosas se sua distribuição futura não for simétrica.

Isso é mais relevante para dados de contagem, que normalmente são distorcidos. Em casos extremos (digamos, Poisson distribuiu vendas com uma média abaixo do log20.69 ), seu MAE será mais baixo para uma previsão de zero plana. Veja aqui ou aqui ou aqui para detalhes.

Fornecemos mais informações e uma ilustração em Quais são as deficiências do Erro Médio Percentual Absoluto (MAPE)? Esse encadeamento considera o , mas também outras medidas de erro, e contém links para outros encadeamentos relacionados.


No final, qual medida de erro a ser usada realmente depende do seu erro de custo de previsão, ou seja, que tipo de erro é mais doloroso. Sem considerar as implicações reais dos erros de previsão, qualquer discussão sobre "melhores critérios" é basicamente sem sentido.

As medidas de precisão das previsões foram um tópico importante na comunidade de previsões há alguns anos e ainda aparecem de vez em quando. Um artigo muito bom para analisar é Hyndman & Koehler "Outro exame sobre as medidas de precisão das previsões" (2006).

Finalmente, uma alternativa é calcular densidades preditivas completas e avaliá-las usando adequadas .

S. Kolassa - Restabelecer Monica
fonte
Obrigado pela resposta e pelo link. Eu não estava familiarizado com o termo "Erro no custo da previsão". Parece que isso se relaciona a situações em que (por exemplo) uma empresa está prevendo quantos widgets ela venderá, e talvez a dor que sofrem por superestimar seja duas vezes mais do que a dor que sofrem por subestimar. No entanto, estou pensando principalmente em um contexto no qual os leigos estão fazendo previsões sem nenhum custo aparente de erro de previsão (por exemplo, "Quantos tweets Bill Gates fará nos próximos 5 meses?"). Em tal situação, minha escolha de medida de erro será arbitrária?
user1205901 - Reintegrar Monica
3
O custo do erro de previsão foi discutido na revista Foresight : forecasters.org/foresight. Muito recomendado! (Divulgação completa: sou um editor associado.) Concordo que o CoFE não é prontamente aparente no seu exemplo, mas gostaria de saber quanto esforço você realmente deve gastar para otimizar sua medida de erro ...
S. Kolassa - Reintegrar Monica
4

As vantagens de usar o MAE em vez do MSE são explicadas em Davydenko e Fildes (2016) , consulte a Seção 3.1:

... Alguns autores (por exemplo, Zellner, 1986) argumentam que o critério pelo qual avaliamos as previsões deve corresponder ao critério pelo qual otimizamos as previsões. Em outras palavras, se otimizarmos estimativas usando alguma função de perda fornecida, devemos usar a mesma função de perda para avaliação empírica, a fim de descobrir qual modelo é melhor.

Ajustar um modelo estatístico geralmente fornece previsões ideais sob perda quadrática. Isso acontece, por exemplo, quando ajustamos uma regressão linear. Se nossa previsão de densidade da modelagem estatística é simétrica, as previsões ideais sob perda quadrática também são ideais sob perda linear. Mas, se estabilizarmos a variação por transformações logarítmicas e depois transformarmos as previsões reversas por exponenciação, obteremos as previsões ideais apenas sob perda linear. Se usarmos outra perda, primeiro precisamos obter a previsão de densidade usando um modelo estatístico e depois ajustar nossa estimativa, de acordo com nossa função de perda específica (veja exemplos de como fazer isso em Goodwin, 2000).

Vamos supor que queremos comparar empiricamente dois métodos e descobrir qual método é melhor em termos de perda linear simétrica (já que esse tipo de perda é comumente usado na modelagem). Se tivermos apenas uma série temporal, parece natural usar um erro absoluto médio (MAE). Além disso, o MAE é atraente, pois é simples de entender e calcular (Hyndman, 2006) ...

Referências

Davydenko, A., & Fildes, R. (2016). Medidas de erro de previsão: revisão crítica e recomendações práticas. Em Previsão de Negócios: Problemas Práticos e Soluções. John Wiley & Filhos

Turbofly
fonte
Você poderia citar o artigo em vez de apenas "Davydenko e Fildes, 2016"?
Silverfish 23/02
Gostamos que nossas respostas sejam autônomas, para que não sejam afetadas negativamente pelos links que ficam inoperantes. Você acha que poderia expandir sua resposta um pouco, para resumir quais foram os pontos principais de seu conteúdo relevantes para esta pergunta? Caso contrário, isso é realmente mais adequado para um comentário do que para uma resposta. (Eu aprecio você não tem reputação suficiente para postar comentários ainda, mas podemos convertê-lo em um para você.)
Silverfish
11
Obrigado pela sua resposta! Eis o que (Davydenko e Fildes, 2016) diz: Ajustar um modelo estatístico geralmente fornece previsões ideais sob perda quadrática. Isso, por exemplo, acontece quando ajustamos uma regressão linear. Se nossa previsão de densidade da modelagem estatística é simétrica, as previsões ideais sob perda quadrática também são ideais sob perda linear. Porém, se estabilizarmos a variação por transformações logarítmicas e depois transformarmos as previsões reversas por exponenciação, obteremos as previsões ideais apenas sob perda linear.
Turbofly
11
Obrigado! Você pode editar essas informações em sua resposta (o botão "editar" fica na parte inferior da sua postagem).
Silverfish 23/02
Muito obrigado. Fiz alguma formatação e citei completamente.
Silverfish 23/02
3

RMSE=MSEMAE=MAD

Na realidade,

MAERMSEnMAE

  • e
    RMSE=1nei2=1nne2=e=MAE
  • e
    MAE=en
    RMSE=1nei2=1ne2=1n(nMAE)2=nMAE

(MAERMSEMAE for classification with partial class memberships yi and/or y^i are [0,1] -- i.e. they can actually take values in between 0 and 1).

  • upper bound: here, ei is 1, so
    MAE=nwrongn
    RMSE=1nei2=1nnwrong=MAE
    (This upper bound occurs for integer nwrong, if you go for partial/fractional class membership and thus also for ei[0,1], things get a bit more complicated because you need to take into account that the maximum possible error can be less than 1, and you may have a "leftover" ei<1 which both lower the upper bound a bit further.)

If the RMSE is close the MAE, you have many small deviations, if it is close to its upper bound, there are few grossly wrong predictions.

cbeleites supports Monica
fonte
do you mean sqrt(n)*MAE or sqrt(n*MAE) as an upper bound?
Chris
1
@Chris: it is sqrt (n) * MAE, see my edit.
cbeleites suporta Monica