Como contabilizar o impacto das férias na previsão

Tenho uma série temporal diária bastante previsível com sazonalidade semanal. Sou capaz de apresentar previsões que parecem bastante precisas (confirmadas pela validação cruzada) quando não há feriados. No entanto, quando há feriados, tenho os seguintes problemas:

Na minha previsão, recebo números diferentes de zero para os feriados, mesmo que todos os feriados históricos sejam 0. Esse não é o problema principal. A questão é ...
Como o processamento que não ocorre nos feriados "transborda" para os dias seguintes aos feriados, uma variável dummy simples não a reduz, pois esses valores discrepantes parecem inovadores a curto prazo. Se não houvesse sazonalidade semanal, talvez eu pudesse apresentar uma estimativa para distribuir os dados não processados do feriado nos cinco ou mais dias seguintes ao feriado (conforme sugerido em Como criar variáveis que refletem o impacto de lead e lag dos feriados / efeitos de calendário em uma análise de séries temporais? ). No entanto, a distribuição do "transbordamento" depende do dia da semana em que o feriado ocorre, e se é feriado de Natal ou de Ação de Graças, onde os pedidos são feitos a uma taxa menor que o resto do ano.

Aqui estão alguns instantâneos da minha validação cruzada que mostram o resultado previsto (azul) versus o resultado real (vermelho) dos feriados que aparecem em diferentes dias da semana:

Também me preocupo que o impacto do Natal dependa do dia da semana em que ele cai, e só tenho seis anos de dados históricos.

Alguém tem alguma sugestão de como lidar com esses tipos de discrepâncias inovadoras no contexto da previsão? (Infelizmente não posso compartilhar nenhum dado)

time-series forecasting arima outliers Julia Maddalena
fonte

Também estou bastante interessado nisso.

EngrStudent - Reintegrar Monica

Se você não pode postar seus dados, talvez você possa postar dados inventados semelhantes aos seus dados? Em muitos casos, isso facilita respostas mais relevantes.

Tim

Escale os dados. O modelo será o mesmo (apenas escalado). Você pode até redimensionar as previsões de volta à sua métrica original.

Tom Reilly

Respostas:

Não foi possível criar uma variável fictícia para feriado, uma para feriado + 1 e outra para feriado + 2 e apenas defini-las como 1 desde que caiam em um dia da semana?

Quanto ao Dia de Ação de Graças e ao Natal, a introdução de variáveis fictícias separadas para esses feriados parece ser a pior opção (já que você tem apenas seis anos de dados). Até certo ponto, essa pode ser sua única opção - as pessoas simplesmente se comportam de maneira diferente nesses feriados do que em, digamos, em quatro de julho (e se você estiver estudando, por exemplo, padrões de vendas no varejo, você definitivamente simplesmente terá que conviver com eles. sendo feriados "especiais" e com certeza gostaria de analisá-los separadamente). No entanto, talvez as idéias abaixo sejam úteis para você:

Ação de graças. O fato de sempre cair no mesmo dia da semana (quinta-feira) não deve facilitar? Ou seja, um boneco de ação de graças pode ser viável, mesmo em um conjunto de dados de seis anos, porque o padrão de dia da semana sempre será o mesmo.
Natal. Parece-me, olhando para o seu gráfico, que o principal problema é que o efeito dura mais tempo do que após outros feriados - se você definir "Natal" como véspera de Natal (24 de dezembro), será porque muitas pessoas também ficarão em casa. Dia de Natal (25 de dezembro) (e até dia de boxe (26 de dezembro) em alguns lugares). Vou pensar um pouco mais sobre isso.

Eu espero que isso ajude.

Candamir
fonte