Como ajustar um modelo para uma série temporal que contém valores discrepantes

9

Eu ajustei o modelo ARIMA (5,1,2) usando a auto.arima()função em R e, observando a ordem, podemos dizer que este não é o melhor modelo para prever. Se existirem outliers na série de dados, qual é o método para ajustar um modelo a esses dados?

r time-series forecasting outliers arima Anthony
fonte

Você tem algum dado / teoria sobre quais pontos são discrepantes? Você não pode simplesmente assumir que pontos "distantes" são discrepantes, mas se você sabe que algo especial aconteceu em uma data específica e que esse evento afetaria seus dados, você pode adicionar uma variável de indicador ao seu modelo para essa data. Veja o comentário de IrishStat, abaixo.

Wayne

Se algo especial aconteceu em 1 ou 2 semanas nesse período e isso afeta o modelo, o modelo pode estar incorreto. Como não há outro motivo como a variação sazonal, presumi que os outliers sejam a causa que afeta o modelo.

18712 Anthony

7

Michael Chernick aponta você na direção certa. Eu também consideraria o trabalho de Ruey Tsay como aquele adicionado a esse conjunto de conhecimentos. Veja mais aqui .

Você não pode competir contra os algoritmos automatizados de computador de hoje. Eles examinam várias maneiras de abordar as séries cronológicas que você não considerou e nem sempre documentou em nenhum artigo ou livro. Quando alguém pergunta como fazer uma ANOVA, pode-se esperar uma resposta precisa ao comparar com diferentes algoritmos. Quando alguém faz a pergunta: como faço para reconhecer padrões, muitas respostas são possíveis à medida que a heurística está envolvida. Sua pergunta envolve o uso de heurísticas.

A melhor maneira de ajustar um modelo ARIMA, se existirem discrepâncias nos dados, é avaliar possíveis estados da natureza e selecionar a abordagem que é considerada ideal para um conjunto de dados específico. Um possível estado da natureza é que o processo ARIMA é a principal fonte de variação explicada. Nesse caso, seria possível "identificar provisoriamente" o processo ARIMA por meio da função acf / pacf e, em seguida, examinar os resíduos quanto a possíveis discrepâncias. Os valores discrepantes podem ser pulsos, ou seja, eventos únicos OU pulsos sazonais que são evidenciados por valores discrepantes sistemáticos com alguma frequência (por exemplo, 12 para dados mensais). Um terceiro tipo de outlier é o local onde se tem um conjunto contíguo de pulsos, cada um com o mesmo sinal e magnitude, a que se chama mudança de nível ou passo. Depois de examinar os resíduos do processo experimental ARIMA, pode-se adicionar, provisoriamente, a estrutura determinística empiricamente identificada para criar um modelo combinado experimental. Nem se a fonte primária de variação for um dos 4 tipos ou "outliers", seria melhor identificá-los ab initio (primeiro) e depois usar os resíduos desse "modelo de regressão" para identificar a estrutura estocástica (ARIMA) . Agora, essas duas estratégias alternativas ficam um pouco mais complicadas quando se tem um "problema" em que os parâmetros do ARIMA mudam ao longo do tempo ou a variação do erro muda ao longo do tempo devido a várias causas possíveis, possivelmente a necessidade de mínimos quadrados ponderados ou uma transformação de energia como registros / recíprocos, etc. Outra complicação / oportunidade é como e quando formar a contribuição das séries de preditores sugeridas pelo usuário para formar um modelo perfeitamente integrado que incorpore memória, causais e séries fictícias identificadas empiricamente. Esse problema é agravado ainda mais quando se tem uma série de tendências melhor modelada com séries de indicadores do formulário, Ou combinações de séries de deslocamento de nível como $0,0,0,0,1,2,3,4,...$ $1,2,3,4,5,...n$ $0,0,0,0,0,0,1,1,1,1,1$ . Você pode tentar escrever esses procedimentos em R, mas a vida é curta. Ficaria feliz em resolver o seu problema e demonstrar neste caso como o procedimento funciona, publique os dados ou envie para [email protected]

Comentário adicional após o recebimento / análise dos dados / dados diários para uma taxa de câmbio / 18 = 765 valores a partir de 1/1/2007