Tenho uma dúvida / confusão sobre séries estacionárias necessárias para modelagem com o ARIMA (X). Estou pensando nisso mais em termos de inferência (efeito de uma intervenção), mas gostaria de saber se previsão versus inferência faz alguma diferença na resposta.
Questão:
Todos os recursos introdutórios que li afirmam que a série precisa ser estacionária, o que faz sentido para mim e é aí que entra o "eu" em arima (diferenciação).
O que me confunde é o uso de tendências e desvios no ARIMA (X) e implicações (se houver) para requisitos estacionários.
O uso de um termo constante / desvio e / ou variável de tendência como uma variável exógena (ou seja, adicionar 't' como um regressor) nega a exigência de que a série seja estacionária? A resposta é diferente dependendo se a série tem uma raiz unitária (por exemplo, teste adf) ou tem uma tendência determinística, mas nenhuma raiz unitária?
OU
Uma série sempre precisa ser estacionária, feita através de diferenciação e / ou depreciação antes de usar o ARIMA (X)?
fonte
Lembre-se de que existem diferentes tipos de não estacionariedade e maneiras diferentes de como lidar com elas. Quatro comuns são:
1) Tendências determinísticas ou estacionariedade de tendências. Se sua série for desse tipo, retire a tendência ou inclua uma tendência temporal na regressão / modelo. Você pode verificar o teorema de Frisch-Waugh-Lovell neste.
2) Mudanças de nível e quebras estruturais. Se for esse o caso, você deve incluir uma variável fictícia para cada intervalo ou se sua amostra for suficientemente longa para modelar cada regime separadamente.
3) Mudança de variação. Modele as amostras separadamente ou modele a variação variável usando a classe de modelagem ARCH ou GARCH.
4) Se sua série contém uma raiz unitária. Em geral, você deve verificar se há relações de cointegração entre as variáveis, mas como se preocupa com a previsão univariada, deve diferenciá-la uma ou duas vezes, dependendo da ordem da integração.
Para modelar uma série temporal usando a classe de modelagem ARIMA, as seguintes etapas devem ser apropriadas:
1) Observe o ACF e o PACF juntamente com um gráfico de séries temporais para ver se a série é ou não estacionária ou não estacionária.
2) Teste a série para obter uma raiz unitária. Isso pode ser feito com uma ampla gama de testes, alguns dos mais comuns são o teste ADF, o teste Phillips-Perron (PP), o teste KPSS que possui nulo de estacionariedade ou o teste DF-GLS, que é o mais eficiente dos testes mencionados. NOTA! No caso de sua série conter uma quebra estrutural, esses testes são tendenciosos para não rejeitar o nulo de uma raiz unitária. Caso você queira testar a robustez desses testes e se suspeitar de uma ou mais quebras estruturais, use testes endógenos de quebras estruturais. Dois comuns são o teste de Zivot-Andrews, que permite uma quebra estrutural endógena, e o Clemente-Montañés-Reyes, que permite duas quebras estruturais. Este último permite dois modelos diferentes.
3) Se houver uma raiz unitária na série, você deve diferenciá-la. Depois, verifique o ACF, PACF e o gráfico de séries temporais e provavelmente verifique se há uma segunda raiz da unidade no lado seguro. O ACF e o PACF ajudarão você a decidir quantos termos de AR e MA você deve incluir.
4) Se a série não contiver uma raiz unitária, mas o gráfico da série temporal e o ACF mostrarem que a série possui uma tendência determinística, você deve adicionar uma tendência ao ajustar o modelo. Algumas pessoas argumentam que é completamente válido apenas diferenciar a série quando ela contém uma tendência determinística, embora as informações possam ser perdidas no processo. No entanto, é uma boa ideia diferenciá-lo para ver muitos termos de RA e / ou MA que você precisará incluir. Mas uma tendência temporal é válida.
5) Ajuste os diferentes modelos e faça a verificação de diagnóstico usual; talvez você queira usar um critério de informação ou o MSE para selecionar o melhor modelo, dependendo da amostra em que você o encaixa.
6) Faça uma amostra de previsão nos modelos mais bem ajustados e calcule funções de perda como MSE, MAPE, MAD para ver qual deles realmente apresenta melhor desempenho ao usá-los para previsão, porque é isso que queremos fazer!
7) Faça sua previsão fora da amostra como um chefe e fique satisfeito com seus resultados!
fonte
Determinar se a tendência (ou outro componente, como a sazonalidade) é determinística ou estocástica faz parte do quebra-cabeça na análise de séries temporais. Vou acrescentar alguns pontos ao que foi dito.
1) A distinção entre tendências determinísticas e estocásticas é importante porque, se uma raiz unitária estiver presente nos dados (por exemplo, uma caminhada aleatória), as estatísticas de teste usadas para inferência não seguem a distribuição tradicional. Veja este post para alguns detalhes e referências.
Podemos simular uma caminhada aleatória (tendência estocástica onde as primeiras diferenças devem ser tomadas), testar a significância da tendência determinística e ver a porcentagem de casos em que o nulo da tendência determinística é rejeitado. Em R, podemos fazer:
No nível de significância de 5%, esperaríamos rejeitar o nulo em 95% dos casos, no entanto, neste experimento, ele foi rejeitado apenas em ~ 89% dos casos em 10.000 caminhadas aleatórias simuladas.
Podemos aplicar testes de raiz de unidade para testar se uma raiz de unidade está presente. Mas devemos estar cientes de que uma tendência linear pode levar à falha em rejeitar o nulo de uma raiz unitária. Para lidar com isso, o teste KPSS considera o nulo de estacionariedade em torno de uma tendência linear.
2) Outra questão é a interpretação dos componentes determinísticos em um processo em níveis ou primeiras diferenças. O efeito de uma interceptação não é o mesmo em um modelo com tendência linear e em uma caminhada aleatória. Veja este post para ilustração.
Chegamos a:
Se a representação gráfica de uma série mostra uma tendência linear relativamente clara, não podemos ter certeza se é devido à presença de uma tendência linear determinística ou a uma deriva em um processo de caminhada aleatória. Gráficos e estatísticas de testes complementares devem ser aplicados.
Há algumas ressalvas a serem lembradas, pois uma análise baseada na raiz da unidade e em outras estatísticas de teste não é infalível. Alguns desses testes podem ser afetados pela presença de observações distantes ou mudanças de nível e requerem a seleção de uma ordem de atraso que nem sempre é direta.
Como solução alternativa para esse quebra-cabeça, acho que a prática comum é levar as diferenças dos dados até a série parecer estacionária (por exemplo, observar a função de autocorrelação, que deve chegar a zero rapidamente) e depois escolher um modelo ARMA.
fonte
Pergunta muito interessante, também gostaria de saber o que os outros têm a dizer. Sou engenheiro de treinamento e não estatístico, para que alguém possa verificar minha lógica. Como engenheiros, gostaríamos de simular e experimentar, por isso fiquei motivado a simular e testar sua pergunta.
Como empiricamente mostrado abaixo, o uso de uma variável de tendência no ARIMAX negou a necessidade de diferenciação e torna a tendência da série estacionária. Aqui está a lógica que eu usei para verificar.
Abaixo está o código R e os gráficos:
AR (1) Gráfico simulado
AR (1) com tendência determinística
PACIMA residual ARIMAX com tendência exógena. As residulas são aleatórias, sem nenhum padrão restante
Como pode ser visto acima, a modelagem da tendência determinística como uma variável exógena no modelo ARIMAX nega a necessidade de diferenciação. Pelo menos no caso determinístico, funcionou. Eu me pergunto como isso se comportaria com uma tendência estocástica, que é muito difícil de prever ou modelar.
Para responder à sua segunda pergunta, SIM, todo o ARIMA, incluindo o ARIMAX, deve ser estacionário. Pelo menos é o que dizem os livros de texto.
Além disso, conforme comentado, consulte este artigo . Explicação muito clara sobre tendência determinística versus tendência estocástica e como removê-las para torná-la estacionária e também uma pesquisa de literatura muito boa sobre esse tópico. Eles o usam no contexto da rede neural, mas são úteis para problemas gerais de séries temporais. Sua recomendação final é quando é claramente identificada como tendência determinística, o que prejudica linearmente, e aplica diferenças para tornar a série temporal estacionária. O júri ainda está por aí, mas a maioria dos pesquisadores citados neste artigo recomenda a diferenciação em oposição ao prejuízo linear.
Editar:
Abaixo está a caminhada aleatória com o processo estocástico de deriva, usando variáveis exógenas e arima de diferença. Ambos parecem dar a mesma resposta e, em essência, são os mesmos.
Espero que isto ajude!
fonte