Considere o seguinte gráfico:
A linha vermelha (eixo esquerdo) descreve o volume de negociação de uma determinada ação. A linha azul (eixo direito) descreve o volume de mensagens do twitter para esse material. Por exemplo, em 9 de maio (09-09), foram feitos cerca de 1.100 milhões de transações e 4.000 tweets.
Eu gostaria de calcular se existe uma correlação entre as séries temporais, no mesmo dia ou com um atraso - por exemplo: o volume do tweet se correlaciona com o volume de negociação um dia depois. Estou lendo muitos artigos que fizeram essa análise, por exemplo, Correlacionando séries temporais financeiras com atividades de microblogging , mas eles não descrevem como essa análise é feita em termos práticos. O seguinte é indicado no artigo:
No entanto, tenho muito pouca experiência com análise estatística e não sei como executar isso nas séries que tenho. Eu uso o SPSS (também conhecido como PASW) e minha pergunta é: quais são as etapas a serem tomadas para fazer essa análise a partir do ponto em que tenho um arquivo de dados subjacente à imagem acima? Esse teste é um recurso padrão (e como é chamado) e / ou como eu poderia executá-lo?
Qualquer ajuda seria muito apreciada :-)
fonte
Respostas:
Dois, verifique a normalidade bivariada, verifique três coisas:
Para verificar a normalidade em cada uma dessas etapas, use gráficos qq normais ou você pode usar qualquer teste de hipótese de normalidade.
Ou então, você pode verificar se todas as combinações lineares possíveis (coeficientes reais) das duas séries são marginalmente normais. Isso provavelmente seria difícil, no entanto.
Edit: (6 anos depois) Eu vou manter o acima para a posteridade, mas note que tenho uma resposta mais recente para uma pergunta semelhante aqui .
fonte
O coeficiente de correlação entre séries temporais é inútil. Consulte COEFICIENTE DE CORRELAÇÃO - Valores críticos para testar a significância . Isso foi apontado pela primeira vez por U. Yule em 1926 Yule, GU, 1926, "Por que às vezes obtemos correlações sem sentido entre séries temporais? Um estudo em amostragem e a natureza das séries temporais", Journal of the Royal Statistical Society 89, 1 -64 . Você pode pesquisar no Google "por que obtemos correlação sem sentido" para obter mais.
O motivo disso é que os testes de correlação exigem a normalidade da articulação. A normalidade da articulação exige que cada série seja normal. Normalidade requer independência. Para examinar a relação entre séries temporais, revise a Identificação da função de transferência em qualquer livro de séries temporais, como Análise de séries temporais: métodos univariados e multivariados, de William WS Wei, David P. Reilly .
Resposta do Desafio
Em termos de resposta ao seu desafio. É bem sabido, por alguns ( Yule, GU, 1926 ), que a correlação de duas séries temporais pode ser falha, principalmente se uma das séries for afetada por pulsos / mudanças de nível / pulsos sazonais e / ou tendências da hora local. Sendo esse o caso, eu pegaria cada uma das séries separadamente e identificaria a estrutura do ARIMA e quaisquer pulsos / mudanças de nível / pulsos sazonais e / ou tendências de horário local que possam ser aplicadas e criar um processo de erro.
Com dois processos de erro limpo, um para cada uma das duas séries originais, eu computaria a correlação cruzada que poderia ser usada para medir o grau de associação acima e além da estrutura auto-correlativa dentro de cada série. Essa solução é chamada apropriadamente de abordagem de pré-clareamento duplo.
Vejo:
fonte