Eu tenho duas séries temporais (ambas suaves) que gostaria de correlacionar para ver como elas estão correlacionadas.
Pretendo usar o coeficiente de correlação de Pearson. Isso é apropriado?
Minha segunda pergunta é que posso optar por experimentar as duas séries temporais da maneira que eu quiser. ou seja, eu posso escolher quantos pontos de dados eu vou. Isso afetará o coeficiente de correlação produzido? Preciso dar conta disso?
Para fins ilustrativos
option(i)
[1, 4, 7, 10] & [6, 9, 6, 9, 6]
option(ii)
[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]
time-series
correlation
pearson-r
smoothing
user1551817
fonte
fonte
Respostas:
A correlação de Pearson é usada para examinar a correlação entre séries ... mas, sendo séries temporais, a correlação é vista em diferentes defasagens - a função de correlação cruzada .
A correlação cruzada é impactada pela dependência dentro da série, portanto, em muitos casos, a dependência dentro da série deve ser removida primeiro. Portanto, para usar essa correlação, em vez de suavizar a série, é realmente mais comum (porque é significativo) observar a dependência entre os resíduos - a parte áspera que resta depois que um modelo adequado é encontrado para as variáveis.
Você provavelmente deseja começar com alguns recursos básicos dos modelos de séries temporais antes de tentar descobrir se uma correlação de Pearson entre séries (presumivelmente) não estacionárias e suavizadas é interpretável.
Em particular, você provavelmente desejará examinar o fenômeno aqui . [Em séries temporais, isso às vezes é chamado de correlação espúria , embora o artigo da Wikipedia sobre correlação espúria tenha uma visão restrita do uso do termo de uma maneira que parece excluir esse uso do termo. Você provavelmente encontrará mais sobre os assuntos discutidos aqui, pesquisando uma regressão espúria .]
[Editar - o cenário da Wikipedia continua mudando; o parágrafo acima. provavelmente deve ser revisado para refletir o que existe agora.]
por exemplo, veja algumas discussões
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (a citação de Yule, em um artigo apresentado em 1925, mas publicado no ano seguinte, resume muito bem o problema)
Christos Agiakloglou e Apostolos Tsimpanos, correlações espúrias para processos estacionários de AR (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (isso mostra que você pode até obter o problema entre séries estacionárias; daí a tendência de pré-branquear)
A referência clássica de Yule, (1926) [1] mencionada acima.
Você também pode achar a discussão aqui útil, bem como a discussão aqui
-
Usar a correlação de Pearson de maneira significativa entre séries temporais é difícil e às vezes surpreendentemente sutil.
Tome nota do meu comentário anterior sobre o uso restrito do termo correlação espúria no artigo da Wikipedia.
O ponto sobre a correlação espúria é que as séries podem parecer correlacionadas, mas a correlação em si não é significativa. Considere duas pessoas jogando duas moedas distintas, contando o número de caras até agora menos o número de caudas até o valor de suas séries.
Obviamente, não há conexão alguma entre as duas séries. Claramente, nenhum dos dois pode lhe dizer a primeira coisa sobre o outro!
Mas observe o tipo de correlação que você obtém entre pares de moedas:
Se eu não lhe dissesse o que eram, e você pegasse algum par dessas séries, essas seriam correlações impressionantes, não é?
Mas eles são todos sem sentido . Totalmente falso. Nenhum dos três pares está realmente mais positivo ou negativo que um dos outros - é apenas um ruído acumulado . A falsidade não se refere apenas à previsão, toda a noção de considerar a associação entre séries sem levar em conta a dependência dentro da série é equivocada.
Tudo o que você tem aqui é dependência dentro da série . Não existe uma relação real entre séries.
Depois que você lida adequadamente com o problema que torna essas séries auto-dependentes - elas são todas integradas ( passeios aleatórios de Bernoulli ), é necessário diferenciá-las - a associação "aparente" desaparece (a maior correlação absoluta entre séries das três é 0,048).
O que isso diz é a verdade - a aparente associação é uma mera ilusão causada pela dependência dentro da série.
Sua pergunta foi feita "como usar a correlação de Pearson corretamente com as séries temporais" - então, entenda: se há dependência dentro da série e você não lida com ela primeiro, não a usará corretamente.
Além disso, a suavização não reduzirá o problema da dependência serial; muito pelo contrário - torna ainda pior! Aqui estão as correlações após a suavização (loess suave padrão - de série versus índice - realizado em R):
Todos se afastaram do 0. Ainda não são nada além de ruídos sem sentido , embora agora sejam ruídos suaves e cumulados. (Ao suavizar, reduzimos a variabilidade nas séries que colocamos no cálculo da correlação, e é por isso que a correlação aumenta.)
[1]: Yule, GU (1926) "Por que às vezes obtemos correlações sem sentido entre séries temporais?" J.Roy.Stat.Soc. , 89 , 1 , p. 1-63
fonte
Além disso, imagine que duas séries temporais são fortemente dependentes, digamos, sobem e descem juntas, mas uma sofre variações às vezes fortes e a outra sempre apresenta variações leves, sua correlação de Pearson será bastante baixa, diferente das de Spearman e Kendall (que são melhores estimativas de dependência entre suas séries temporais).
Para um tratamento completo sobre isso e uma melhor compreensão da dependência, você pode consultar a Teoria de Copula e uma aplicação para séries temporais .
fonte
Os dados de séries temporais geralmente dependem do tempo. A correlação de Pearson, no entanto, é apropriada para dados independentes. Esse problema é semelhante à chamada regressão espúria. É provável que o coeficiente seja altamente significativo, mas isso vem apenas da tendência temporal dos dados que afetam as duas séries. Recomendo modelar os dados e, em seguida, tentar ver se a modelagem produz resultados semelhantes para as duas séries. O uso do coeficiente de correlação de Pearson, no entanto, provavelmente fornecerá resultados enganosos para a interpretação da estrutura de dependência.
fonte