Há um post bastante antigo no blog de William Briggs, que analisa as armadilhas de suavizar dados e transportá-los para análise. O argumento principal é:
Se, em um momento de insanidade, você suaviza dados de séries temporais e os utiliza como entrada para outras análises, aumenta drasticamente a probabilidade de se enganar! Isso ocorre porque a suavização induz sinais espúrios - sinais que parecem reais para outros métodos analíticos. Não importa o que você tenha certeza dos seus resultados finais!
No entanto, estou lutando para encontrar discussões abrangentes sobre quando suavizar e quando não.
É desagradável apenas suavizar ao usar esses dados suavizados como entrada para outras análises ou há outras situações em que a suavização não é recomendada? Por outro lado, existem situações em que a suavização é recomendada?
fonte
Respostas:
A suavização exponencial é uma técnica clássica usada na previsão de séries temporais não causais. Desde que você o use apenas em previsões diretas e não use ajustes suavizados na amostra como entrada para outro algoritmo estatístico ou de mineração de dados, a crítica de Briggs não se aplica. (Por conseguinte, sou cético em usá-lo "para produzir dados suavizados para apresentação", como diz a Wikipedia - isso pode ser enganoso, ocultando a variabilidade suavizada.)
Aqui está uma introdução ao Suavização exponencial.
E aqui está um artigo de revisão (com 10 anos, mas ainda relevante).
EDIT: parece haver alguma dúvida sobre a validade da crítica de Briggs, possivelmente um pouco influenciada por sua embalagem . Concordo plenamente que o tom de Briggs pode ser abrasivo. No entanto, gostaria de ilustrar por que acho que ele tem razão.
Abaixo, estou simulando 10.000 pares de séries temporais, com 100 observações cada. Todas as séries são ruído branco, sem nenhuma correlação. Portanto, a execução de um teste de correlação padrão deve gerar valores de p uniformemente distribuídos em [0,1]. Como está (histograma à esquerda abaixo).
No entanto, suponha que primeiro suavizemos cada série e aplicemos o teste de correlação aos dados suavizados . Algo surpreendente aparece: como removemos muita variabilidade dos dados, obtemos valores de p muito pequenos . Nosso teste de correlação é fortemente tendencioso. Portanto, teremos certeza de qualquer associação entre a série original, que é o que Briggs está dizendo.
A questão realmente depende de usarmos os dados suavizados para previsão, caso em que a suavização é válida ou se os incluiremos como entrada em algum algoritmo analítico, caso em que a remoção da variabilidade simulará uma certeza mais alta em nossos dados do que é garantido. Essa certeza injustificada nos dados de entrada é realizada até os resultados finais e precisa ser contabilizada; caso contrário, todas as inferências serão muito certas. (E, é claro, também obteremos intervalos de previsão muito pequenos se usarmos um modelo baseado em "certeza inflada" para previsão).
fonte
Alegar que a suavização é inadequada para uma análise de modelagem condena-a a ter um erro quadrático médio mais alto do que poderia. O erro quadrático médio ou MSE pode ser decomposto em três termos, um quadrado de um valor chamado `` viés '', uma variação e algum erro irredutível. (Isso é mostrado nas citações abaixo.) Modelos excessivamente suavizados têm um viés alto, mesmo se eles tiverem baixa variação, e modelos muito ásperos têm altas variações e baixo viés.
Não há nada filosófico sobre isso. É uma caracterização matemática. Não depende do caráter do ruído ou do caráter do sistema.
Vejo:
http://scott.fortmann-roe.com/docs/BiasVariance.html
https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf
http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (isso tem a derivação da decomposição.)
http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei faz o mesmo de uma maneira diferente e traz o que acontece quando se tenta prever).
As estatísticas clássicas quase sempre insistiam em estimativas imparciais. Em 1955, o estatístico Charles Stein, de Stanford, mostrou que havia combinações de estimadores imparciais que apresentaram menor EME para casos especiais importantes, notadamente o que se tornou chamado ESTIMADORES DE JAMES-STEIN. Bradley Efron escreveu um texto muito acessível sobre esta revolução em insight: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
fonte