Suponha que eu tenha um pouco mais de 20.000 séries temporais mensais que vão de jan'05 a dez'11. Cada um deles representa dados de vendas globais para um produto diferente. E se, em vez de calcular previsões para cada um deles, eu quisesse focar apenas em um pequeno número de produtos que "realmente importam"?
Eu poderia classificar esses produtos pela receita anual total e reduzir a lista usando o clássico Pareto. Ainda me parece que, embora eles não contribuam muito para o resultado final, alguns produtos são tão fáceis de prever que deixá-los de fora seria um julgamento ruim. Um produto que vendeu US $ 50 a cada mês nos últimos 10 anos pode não parecer muito, mas requer tão pouco esforço para gerar previsões sobre vendas futuras que eu também o faria.
Então, digamos que divido meus produtos em quatro categorias: alta receita / fácil de prever - baixa receita / fácil de prever - alta receita / difícil de prever - baixa receita / difícil de prever.
Eu acho que seria razoável deixar para trás apenas as séries temporais pertencentes ao quarto grupo. Mas como exatamente posso avaliar a "previsibilidade"?
O coeficiente de variação parece ser um bom ponto de partida (também me lembro de ter visto algum artigo sobre isso há algum tempo). Mas e se minhas séries temporais exibirem sazonalidade / mudanças de nível / efeitos de calendário / tendências fortes?
Eu imaginaria que deveria basear minha avaliação apenas na variabilidade do componente aleatório e não no dos dados "brutos". Ou eu estou esquecendo de alguma coisa?
Alguém já encontrou um problema semelhante antes? Como vocês iriam fazer isso?
Como sempre, qualquer ajuda é muito apreciada!
Esse é um problema bastante comum na previsão. A solução tradicional é calcular os erros percentuais absolutos médios (MAPEs) em cada item. Quanto menor o MAPE, mais fácil é a previsão do item.
Um problema é que muitas séries contêm valores zero e, em seguida, MAPE é indefinido.
Propus uma solução em Hyndman e Koehler (IJF 2006) [versão pré-impressão] usando erros médios absolutos em escala (MASEs). Para séries temporais mensais, o dimensionamento seria baseado em previsões ingênuas sazonais dentro da amostra. Ou seja, se é uma observação no tempo , os dados estão disponíveis dos tempos 1 a e um erro de escala é , onde é uma previsão de usando o método de previsão que você está implementando para esse item. Pegue o valor absoluto médio dos erros de escala para obter o MASE. Por exemplo, você pode usar uma origem rotativa (também conhecida comoyt t T Q=1T−12∑t=13T|yt−yt−12|, qt=(yt−y^t)/Q y tythy^t yt validação cruzada de séries temporais ) e use o valor absoluto médio dos erros resultantes de uma etapa (ou etapa ).h
As séries fáceis de prever devem ter valores baixos de MASE. Aqui "fácil de prever" é interpretado em relação à previsão ingênua sazonal. Em algumas circunstâncias, pode fazer mais sentido usar uma medida base alternativa para dimensionar os resultados.
fonte
Você pode estar interessado em ForeCA: Análise de Componentes Previsíveis (exoneração de responsabilidade: eu sou o autor). Como o nome sugere, é uma técnica de redução de dimensão / separação de fonte cega (BSS) para encontrar os sinais mais previsíveis de muitas séries temporais multivariadas - mais ou menos estacionárias. Para o seu caso específico de 20.000 séries temporais, pode não ser a coisa mais rápida a ser feita (a solução envolve espectros de potência multivariados e atualização analítica iterativa do melhor vetor de peso; além disso, acho que pode ocorrer o problema ).p≫n
Há também um pacote R ForeCA disponível no CRAN (novamente: eu sou o autor) que implementa a funcionalidade básica; no momento, ele suporta a funcionalidade de estimar a medida de para séries temporais univariadas e possui algumas boas funções de empacotador para espectros multivariados (novamente 20.000 séries temporais provavelmente são demais para lidar de uma só vez).Ω(xt)
Mas talvez você possa tentar usar a medida MASE proposta por Rob para fazer uma separação grossa da grade dos 20.000 em vários subgrupos e depois aplicar o ForeCA a cada um separadamente.
fonte
Essa resposta é muito tardia, mas para aqueles que ainda estão procurando uma medida apropriada de previsibilidade para séries temporais de demanda de produtos, sugiro observar a entropia aproximada .
A demanda do produto tende a ter um componente sazonal muito forte, tornando inadequado o coeficiente de variação (CV). ApEn (m, r) é capaz de lidar com isso corretamente. No meu caso, como meus dados tendem a ter uma forte sazonalidade semanal, defino os parâmetros m = 7 er = 0,2 * std, conforme recomendado aqui .
fonte