Correlacionando séries temporais de volume

12

Considere o seguinte gráfico:

twitter e volume de negociação

A linha vermelha (eixo esquerdo) descreve o volume de negociação de uma determinada ação. A linha azul (eixo direito) descreve o volume de mensagens do twitter para esse material. Por exemplo, em 9 de maio (09-09), foram feitos cerca de 1.100 milhões de transações e 4.000 tweets.

Eu gostaria de calcular se existe uma correlação entre as séries temporais, no mesmo dia ou com um atraso - por exemplo: o volume do tweet se correlaciona com o volume de negociação um dia depois. Estou lendo muitos artigos que fizeram essa análise, por exemplo, Correlacionando séries temporais financeiras com atividades de microblogging , mas eles não descrevem como essa análise é feita em termos práticos. O seguinte é indicado no artigo:

insira a descrição da imagem aqui

No entanto, tenho muito pouca experiência com análise estatística e não sei como executar isso nas séries que tenho. Eu uso o SPSS (também conhecido como PASW) e minha pergunta é: quais são as etapas a serem tomadas para fazer essa análise a partir do ponto em que tenho um arquivo de dados subjacente à imagem acima? Esse teste é um recurso padrão (e como é chamado) e / ou como eu poderia executá-lo?

Qualquer ajuda seria muito apreciada :-)

Pr0no
fonte
1
Você pode calcular-los ... você simplesmente não pode compará-los com os valores críticos a menos que as duas séries são bi-variada normais
IrishStat
Eu colei dados brutos aqui: pastebin.com/tZajRae9 Existe uma maneira de saber se a série é bi-variável normal? Eu realmente aprecio o seu comentário.
Pr0no
Após a detecção dos desvios Outliers / Level em cada uma das séries, a série ajustada resultante exibiu um modelo AR (1). Após incorporar não apenas o ajuste Outlier / Shift de nível E o RA empiricamente identificado (1), ambas as séries de ruído ficaram livres de correlação automática (dentro da estrutura). Uma correlação cruzada dessas duas séries substitutas indicou nenhuma correlação cruzada substantiva (entre a estrutura), portanto, o número de tweets não parece ajudar na previsão de volume.
precisa saber

Respostas:

6

Dois, verifique a normalidade bivariada, verifique três coisas:

  1. verifique se a primeira série de observações é marginalmente normal,
  2. verifique se a segunda série de observações é marginalmente normal,
  3. regride um com o outro e verifique se os resíduos são normais.

Para verificar a normalidade em cada uma dessas etapas, use gráficos qq normais ou você pode usar qualquer teste de hipótese de normalidade.

Ou então, você pode verificar se todas as combinações lineares possíveis (coeficientes reais) das duas séries são marginalmente normais. Isso provavelmente seria difícil, no entanto.

Edit: (6 anos depois) Eu vou manter o acima para a posteridade, mas note que tenho uma resposta mais recente para uma pergunta semelhante aqui .

Taylor
fonte
Eu segui as etapas 1 e 2 e criei os seguintes gráficos de caixa : i.imgur.com/SDOTE.png Exceto pelas observações de 3 a 5, elas parecem marginalmente normais. No entanto, o Sig. O valor para o teste Shapiro-Wilk é 0,000, o que indicaria um desvio significativo da normalidade. Com os outliers removidos, Shapiro Wilk Sig. é 0,201 para tweets e 0,004 para negociações. Isso indica que nenhuma correlação é possível? Além disso, trata-se de séries temporais - excluir outliers significa excluir dias no período pesquisado. Esta é uma prática aceita?
Pr0no
Também fiz um gráfico de pp para a etapa 3. Ou, pelo menos, na minha interpretação, é disso que eu preciso (uma regressão linear com gráfico de probabilidade normal): i.imgur.com/EZ3Ic.png Algum comentário?
Pr0no
As distribuições marginais não parecem normais. Há uma pequena seção sobre inferência no link da página da wikipedia . A remoção de valores discrepantes geralmente não é uma boa ideia. Talvez inicialize um intervalo de confiança.
Taylor
1
A questão é sobre correlação - mas a resposta é sobre normalidade. A resposta é votada várias vezes e aceita. O que estou perdendo aqui? ..
Richard Hardy
Uma distribuição normal bivariada é o modelo mais simples que motiva / justifica usando a correlação de Pearson.
21415 Taylor
11

O coeficiente de correlação entre séries temporais é inútil. Consulte COEFICIENTE DE CORRELAÇÃO - Valores críticos para testar a significância . Isso foi apontado pela primeira vez por U. Yule em 1926 Yule, GU, 1926, "Por que às vezes obtemos correlações sem sentido entre séries temporais? Um estudo em amostragem e a natureza das séries temporais", Journal of the Royal Statistical Society 89, 1 -64 . Você pode pesquisar no Google "por que obtemos correlação sem sentido" para obter mais.

O motivo disso é que os testes de correlação exigem a normalidade da articulação. A normalidade da articulação exige que cada série seja normal. Normalidade requer independência. Para examinar a relação entre séries temporais, revise a Identificação da função de transferência em qualquer livro de séries temporais, como Análise de séries temporais: métodos univariados e multivariados, de William WS Wei, David P. Reilly .

Resposta do Desafio

Em termos de resposta ao seu desafio. É bem sabido, por alguns ( Yule, GU, 1926 ), que a correlação de duas séries temporais pode ser falha, principalmente se uma das séries for afetada por pulsos / mudanças de nível / pulsos sazonais e / ou tendências da hora local. Sendo esse o caso, eu pegaria cada uma das séries separadamente e identificaria a estrutura do ARIMA e quaisquer pulsos / mudanças de nível / pulsos sazonais e / ou tendências de horário local que possam ser aplicadas e criar um processo de erro.

Com dois processos de erro limpo, um para cada uma das duas séries originais, eu computaria a correlação cruzada que poderia ser usada para medir o grau de associação acima e além da estrutura auto-correlativa dentro de cada série. Essa solução é chamada apropriadamente de abordagem de pré-clareamento duplo.

Vejo:

IrishStat
fonte
Obrigado pela sua resposta. Mas então você está dizendo que, por definição, ao trabalho a que me referi, não tem valor? Em segundo lugar, isso significa que, por definição, duas séries nunca podem ser correlacionadas onde a correlação tem significado?
Pr0no
3
A correlação pode ser calculada, pois é uma aritmética simples. O que não pode ser calculado (facilmente) é a probabilidade de que a correlação seja estatisticamente significativa. Pense na primeira vez em que você foi apresentado ao coeficiente de correlação. Foi no contexto de N amostras independentes onde duas características / valores foram calculados para cada uma das N amostras independentes e a densidade da articulação foi bivariada normal.
precisa saber é o seguinte
1
Por que requer normalidade articular e não apenas a mesma distribuição (simétrica?)? ou seja, a uniformidade das juntas também não funcionaria?
precisa saber é o seguinte
1
@ NAUGHT101. Valores críticos para o coeficiente de correlação estão disponíveis sob a suposição de normalidade da articulação e são indefinidos de outra forma.
precisa saber é o seguinte
@IrishStat Obrigado pela sua resposta editada. É apreciado. Para teste de normalidade, consulte i.imgur.com/SDOTE.png para gráficos qq das variáveis ​​separadas. Depois que os outliers são removidos, uma plotagem pp, do que eu entendo quais medidas normlaidade conjunta, fica assim: i.imgur.com/EZ3Ic.png Algum comentário?
Pr0no