Como comparar estatisticamente duas séries temporais?

43

Eu tenho duas séries temporais, mostradas na plotagem abaixo:

Gráfico de Séries Temporais

O gráfico mostra os detalhes completos das duas séries temporais, mas posso reduzi-lo facilmente a apenas as observações coincidentes, se necessário.

Minha pergunta é: Quais métodos estatísticos posso usar para avaliar as diferenças entre as séries temporais?

Sei que essa é uma pergunta bastante ampla e vaga, mas não consigo encontrar muito material introdutório sobre isso em nenhum lugar. Como posso ver, há duas coisas distintas para avaliar:

1. Os valores são os mesmos?

2. As tendências são as mesmas?

Que tipo de testes estatísticos você sugeriria analisar para avaliar essas perguntas? Para a pergunta 1, obviamente, posso avaliar os meios dos diferentes conjuntos de dados e procurar diferenças significativas nas distribuições, mas existe uma maneira de fazer isso que leva em consideração a natureza da série temporal dos dados?

Para a pergunta 2 - há algo como os testes de Mann-Kendall que procuram a semelhança entre duas tendências? Eu poderia fazer o teste de Mann-Kendall para os dois conjuntos de dados e comparar, mas não sei se essa é uma maneira válida de fazer as coisas, ou se existe uma maneira melhor?

Estou fazendo tudo isso em R, portanto, se você sugerir testes com um pacote R, informe-me.

robintw
fonte
9
O enredo parece obscurecer o que pode ser uma diferença crucial entre essas séries: elas podem ser amostradas em diferentes frequências. A linha preta (Aeronet) parece ter sido amostrada apenas cerca de 20 vezes e a linha vermelha (Visibilidade) centenas de vezes ou mais. Outro fator crítico pode ser a regularidade da amostragem, ou a falta dela: os tempos entre as observações da Aeronet parecem variar um pouco. Em geral, ajuda a apagar as linhas de conexão e exibir apenas os pontos correspondentes aos dados reais, para que o visualizador possa determinar essas coisas visualmente.
whuber
Aqui está uma biblioteca Python para análise de séries temporais com espaçamento desigual.
Kjetil b halvorsen

Respostas:

27

Como outros já declararam, você precisa ter uma frequência comum de medição (ou seja, o tempo entre as observações). Com isso, eu identificaria um modelo comum que descreveria razoavelmente cada série separadamente. Pode ser um modelo ARIMA ou um modelo de regressão com várias tendências com possíveis mudanças de nível ou um modelo composto que integra variáveis ​​de memória (ARIMA) e variáveis ​​fictícias. Esse modelo comum pode ser estimado global e separadamente para cada uma das duas séries e, em seguida, é possível construir um teste F para testar a hipótese de um conjunto comum de parâmetros.

IrishStat
fonte
11
Bem, você realmente não precisa ter a mesma frequência para as duas séries. Só que, assim, há pouco software para outros casos, mas consulte traces.readthedocs.io/en/latest . Parece que muito é pubslihed sobre outros casos em revistas de astronomia e em finanças e geofísica ... ver refs em en.wikipedia.org/wiki/Unevenly_spaced_time_series
b Kjetil Halvorsen
12

Considere o grangertest()na biblioteca lmtest .

É um teste para verificar se uma série temporal é útil na previsão de outra.

Algumas referências para você começar:

https://spia.uga.edu/faculty_pages/monogan/teaching/ts/

https://spia.uga.edu/faculty_pages/monogan/teaching/ts/Kgranger.pdf

http://en.wikipedia.org/wiki/Granger_causality

fionn
fonte
11
O tamanho da amostra seria muito pequeno com <10 pontos de dados em comparação com a quantidade de parâmetros necessários para o Granger.
Jase
11
@fionn, os links da sua resposta estão inoperantes. Você pode atualizar sua resposta?
Davor Josipovic
0

Apenas deparei com isso. Sua primeira resposta nos esboça g os dois define a mesma escala (no tempo) para ver as diferenças visualmente. Você fez isso e pode ver facilmente que existem algumas diferenças gritantes. O próximo passo é usar a análise de correlação simples ... e ver quão bem eles estão relacionados usando o coeficiente de correlação (r). Se r for pequeno, sua conclusão seria que eles estão fracamente relacionados e, portanto, não há comparações desejáveis ​​e um valor maior se r sugerir boas comparações s entre as duas séries. O terceiro passo em que existe uma boa correlação é testar a significância estatística do r. Aqui você pode usar o teste Shapiro Welch, que assumiria que as duas séries são normalmente distribuídas (hipótese nula) ou não (hipótese alternativa). Existem outros testes que você pode fazer, mas espero que minha resposta ajude.

Richard
fonte
11
Ao comparar séries temporais, trata-se de autocorrelação e possivelmente de modelos de séries temporais. como os modelos ARIMA que podem ajudar a determinar quão semelhantes eles são. Duas realizações do mesmo processo estocástico não necessariamente parecem iguais ao plotá-las.
Michael Chernick
-2

Ajuste uma linha reta aos sinais da série temporal usando o polyfit. Em seguida, calcule o erro quadrático médio quadrado (RMSE) para ambas as linhas. O valor obtido para a linha vermelha seria bem menor que o valor obtido para a linha cinza.

Faça também as leituras em alguma frequência comum.

M. Ejaz Ahmed
fonte
2
Bem-vindo ao Cross Validated e obrigado pela sua primeira resposta! No entanto, estou preocupado que você não esteja respondendo diretamente à pergunta - como exatamente a abordagem proposta ajudaria o solicitante a avaliar se os valores e / ou tendências são semelhantes?
Martin Modrák 12/03/19