Séries temporais multivariadas em R. Como encontrar correlação defasada e construir modelo para previsão

16

Sou novo na página e bastante novo em estatística e R. Estou trabalhando em um projeto para a faculdade com o objetivo de encontrar a correlação entre a chuva e o nível do fluxo de água nos rios. Depois que a correlação for comprovada, quero prever / prever.

Os dados Eu tenho um conjunto de dados de vários anos (coletados a cada 5 minutos) para um determinado rio que contém:

  • Precipitação em milímetros
  • Fluxo do rio em metros cúbicos por segundo

Como o rio não tem neve, o modelo é baseado apenas na chuva e no tempo. Ocasionalmente, há temperaturas congelantes, mas estou pensando em remover esses períodos dos dados, de modo tão externo quanto essa situação está fora do escopo do meu projeto.

Exemplos Aqui você tem alguns gráficos de dados da chuva e do aumento da água algumas horas depois.

Exemplo maior em alguns dias

Exemplo mais curto, apenas um período de chuva

A linha vermelha é o fluxo do rio. A laranja é a chuva. Você pode ver que sempre chove antes que a água suba no rio. Há chuva começando novamente no final da série cronológica, mas isso afetará o fluxo do rio mais tarde.

A correlação está lá. Aqui está o que eu fiz no R para provar a correlação usando o ccf no R:

  • a correlação cruzada
  • a variável principal
  • o atraso

Esta é minha linha R usada para o segundo exemplo (um período de precipitação):

ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain")

resultado ccf para o pequeno exemplo 2

Minha interpretação é:

  • que a chuva leva (acontece primeiro),
  • 450
  • 450800ccf

Estou certo?

Sobre as séries temporais . Esta série cronológica não possui periodicidade ou sazonalidade. A chuva pode chegar a qualquer momento e causar um efeito. Reduz no verão, mas ainda acontece, é uma área com muita chuva o ano todo.

Modelo e previsão. Não sei como criar um modelo para poder fazer uma previsão que me diga quanto um rio vai aumentar o volume após um período de chuva. Eu tenho tentado alguns arima, auto arimamas não tive muito sucesso. Devo usar Arima, varsou outro modelo multivariado diferente? Qualquer link para um exemplo seria de grande ajuda.

Por favor, deixe-me saber se você sabe a melhor maneira de criar essa previsão, que modelo devo usar. Há algumas outras coisas que estou pensando em fazer, mas as tirei dessa explicação por simplicidade. Posso compartilhar alguns dados, se necessário.

Fernando Ayuso
fonte
você está olhando para a análise de intervenção (subconjunto é chamado de "estudos de eventos" em estudos sociais)
Konstantinos

Respostas:

3

Você precisa usar seus comportamentos ACF e PACF para ajudá-lo a determinar qual modelo se adapta melhor aos seus dados (por exemplo, uma existência de decaimento lento no gráfico ACF indica que pode ser necessária diferenciação para tornar a série mais estabilizada. Seu gráfico ACF obviamente mostra que algum tipo A flutuação deve ser menos variada e, dentro das linhas azuis, se você usar a transformação correta (séries estacionárias). Depois de tornar sua série estacionária, pense em qual modelo AR, MA, ARMA ou ARIMA é apropriado. No meu projeto, fiz o seguinte para ajudar na seleção de modelos:

O gráfico ACF mostra um valor relativamente grande no atraso 2 ( veja onde está o gráfico ). Além disso, torna-se essencialmente zero em defasagens superiores a dois. Isso sugere que um modelo MA (2) pode ajustar os dados e, então, olhando para o gráfico PACF, notamos imediatamente que a correlação é zero quase em todos os lags. Isso pode sugerir que o modelo não possui nenhuma parte AR ( ajuste isso ao seu gráfico) Portanto, um dos nossos modelos candidatos pode ser um ARIMA (p, d, q) com parâmetros p = 0, d = 1 e q = 1 ou 2. Eu também tentei algumas ordens mais altas de MA e considerei alguma possibilidade de ter uma parte AR no modelo para comparar os resultados da AIC, AICc e BIC e decidir sobre o modelo final. Na próxima etapa, você precisará executar alguns testes de diagnóstico para garantir que escolheu o modelo correto e se não há um padrão em seus resíduos (ACF e PACF para resíduos, valor de p para a estatística Ljung-Box, histograma para resíduos e Plot QQ). Espero que ajude!

soshelp
fonte