Por que os passeios aleatórios são correlacionados?

27

Eu observei que, em média, o valor absoluto do coeficiente de correlação de Pearson é uma constante próxima a qualquer par de passeios aleatórios independentes, independentemente do comprimento do passeio.0.560.42

Alguém pode explicar esse fenômeno?

Eu esperava que as correlações diminuíssem à medida que o comprimento da caminhada aumenta, como em qualquer sequência aleatória.

Para minhas experiências, usei caminhadas gaussianas aleatórias com média de passo 0 e desvio padrão de passo 1.

ATUALIZAR:

Eu esqueci de centralizar os dados, é por isso que eles foram 0.56substituídos 0.42.

Aqui está o script Python para calcular as correlações:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))
Adão
fonte
Meu primeiro pensamento é que, à medida que a caminhada aumenta, é possível obter valores com uma magnitude maior, e a correlação está aumentando.
John Paul
Mas isso funcionaria com qualquer sequência aleatória, se bem entendi, mas apenas as caminhadas aleatórias têm essa correlação constante.
Adam
4
Esta não é apenas uma "sequência aleatória": as correlações são extremamente altas, porque cada termo está apenas a um passo do anterior. Observe também que o coeficiente de correlação que você está computando não é o das variáveis ​​aleatórias envolvidas: é um coeficiente de correlação para as seqüências (pensadas simplesmente como dados emparelhados), o que equivale a uma grande fórmula envolvendo vários quadrados e diferenças de todos os termos na sequência.
whuber
10
Você está falando de correlações entre passeios aleatórios (entre séries que não estão dentro de uma série)? Nesse caso, é porque seus passeios aleatórios independentes estão integrados, mas não cointegrados, o que é uma situação bem conhecida em que correlações espúrias aparecerão.
Chris Haug
8
Se você der uma primeira diferença, não encontrará correlação. A falta de estacionariedade é a chave aqui.
Paulo

Respostas:

24

Seus processos independentes não estão correlacionados! Se e Y t são passeios aleatórios independentes:XtYt

  • Um coeficiente de correlação incondicional no tempo não existe. (Não fale sobre .)Corr(X,Y)
  • Para qualquer momento , Corr ( X t , Y t ) é realmente 0.tCorr(Xt,Yt)
  • Mas exemplos de estatísticas baseadas em médias de séries temporais não convergirão para nada! O coeficiente de correlação da amostra calculado com base na média de várias observações ao longo do tempo não faz sentido.

Intuitivamente, você pode adivinhar (incorretamente) que:

  1. A independência entre dois processos e { Y t } implica que eles têm correlação zero. (Para duas caminhadas aleatórias, Corr ( X , Y ) não existe.){Xt}{Yt}Corr(X,Y)
  2. A série temporal, correlação amostra ρ X Y (isto é, o coeficiente de correlação calculado utilizando séries temporais, as amostras estatísticas, tais como ^ μ X = 1ρ^XY) irá convergir para o coeficiente de correlação populacionalρXYcomoT.μX^=1Tτ=1TXτρXYT

O problema é que nenhuma dessas afirmações é verdadeira para passeios aleatórios! (Eles são verdadeiros para processos com melhor comportamento.)

Para processos não estacionários:

  • Você pode falar sobre a correlação entre processos e { Y t } em quaisquer dois momentos específicos (por exemplo, Corr ( X 2 , Y 3 ) é uma afirmação perfeitamente sensata.){Xt}{Yt}Corr(X2,Y3)
  • Mas não faz sentido falar sobre a correlação entre as duas séries incondicionalmente no prazo! não tem um significado bem definido.Corr(X,Y)

Os problemas no caso de uma caminhada aleatória?

  1. Para uma caminhada aleatória , não existem momentos incondicionais da população (isto é, que não dependem do tempo ), como E [ X ] . (Em certo sentido, eles são infinitos.) Da mesma forma, o coeficiente de correlação incondicional ρ X Y entre dois passeios aleatórios independentes não é zero; de fato, não existe!tE[X]ρXY
  2. As suposições dos teoremas ergódicos não se aplicam e várias médias de séries temporais (por exemplo, )nãoconverge para nada comoT. 1TτXτT
    • Para uma sequência estacionária, a média das séries temporais eventualmente convergirá na média incondicional no tempo. Mas para uma sequência não estacionária, não há meios incondicionais no tempo!

Se você tiver várias observações de duas caminhadas aleatórias independentes ao longo do tempo (por exemplo, , X 2X1X2 , etc ... e , Y 2 , ....) e calcular o coeficiente de correlação da amostra, obterá um número entre - 1 e 1 . Mas não será uma aproximação do coeficiente de correlação populacional (que não existe).Y1Y211

Em vez (calculado utilizando as médias de séries temporais a partir de t = 1 para tρ^XY(T)t=1 ) vai ser basicamente uma variável aleatória (tomando valores em [ - 1 , 1 ] ), que reflecte os dois caminhos particulares os passeios aleatórios tomados por acaso (ou seja, os caminhos definidos pelo desenho ω extraído do espaço da amostra Ω .) Falando de maneira extremamente vaga (e imprecisa):t=T[1,1]ωΩ

  • Se ambos e Y t aconteceu a vaguear fora na mesma direção, você vai detectar uma relação positiva espúria.XtYt
  • Se e Y t afastou em direções diferentes, você vai detectar uma relação negativa espúria.XtYt
  • Se e Y t aconteceu a vaguear através de se suficiente, você vai detectar um próximo relacionamento zero.XtYt

Você pode pesquisar mais no Google sobre isso com os termos spurious regression random walk.

Um passeio aleatório não é estacionária e tendo médias ao longo do tempo não irá convergir para o que você iria ficar tomando iid chama ω a partir de amostra de espaço Ω . Como mencionado nos comentários acima, você pode fazer as primeiras diferenças Δ x t = x t -tωΩ e, para uma caminhada aleatória, esse processo { Δ x t } é estacionário.Δxt=xtxt1{Δxt}

Grande ideia:

Várias observações ao longo do tempo NÃO É o mesmo que vários sorteios de um espaço de amostra!

Lembre-se de que um processo estocástico de tempo discreto é uma função do tempo ( t N ) e de um espaço de amostra Ω .{Xt}tNΩ

Para que as médias ao longo do tempo convergam para as expectativas em um espaço de amostra Ω , você precisa de estacionariedade e ergodicidade . Esse é um problema central em muitas análises de séries temporais. E uma caminhada aleatória não é um processo estacionário.tΩ

Conexão com a resposta do WHuber:

Se você pode calcular médias em várias simulações (ou seja, tirar vários desenhos de ) em vez de ser forçado a calcular médias no tempo t , vários problemas desaparecem.Ωt

Pode, claro, definir ρ X Y ( t ) como o coeficiente de correlação calculado amostra em X 1 ... X tρ^XY(t)X1Xt e e este será também um processo estocástico.Y1Yt

Você pode definir algumas variáveis ​​aleatórias como:Zt

Zt=|ρ^XY(t)|

Para dois passeios aleatórios começando em com incrementos de N ( 0 , 1 ) , é fácil encontrar E [ Z 10000 ] por simulação (ou seja, usando vários desenhos de Ω .)0N(0,1)E[Z10000]Ω

Abaixo, fiz uma simulação de 10.000 cálculos de um coeficiente de correlação de Pearson de amostra. Cada vez que eu:

  • Simularam dois passeios aleatórios de 10.000 comprimentos (com incrementos normalmente distribuídos, extraídos de ).N(0,1)
  • Calculou o coeficiente de correlação da amostra entre eles.

Abaixo está um histograma mostrando a distribuição empírica sobre os 10000 coeficientes de correlação calculados.

insira a descrição da imagem aqui

Pode observar claramente que a variável aleatória ρ X Y ( 10000 ) pode ser em todo o lugar no intervalo [ - 1 , 1 ]ρ^XY(10000)[1,1] . Para dois caminhos fixos de e Y , o coeficiente de correlação da amostra não converge para nada à medida que a duração da série temporal aumenta.XY

Por outro lado, por um tempo específico (por exemplo, ), o coeficiente de correlação amostra é uma variável aleatória com uma média finito etc ... Se tomo do valor absoluto e calcular a média sobre todas as simulações, Eu calculo aproximadamente 0,42. Não sei por que você quer fazer isso ou por que isso tem algum significado ?, mas é claro que você pode.t=10,000

Código:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))
Matthew Gunn
fonte
Como o tamanho da amostra obviamente não é finito, suas afirmações sobre várias quantidades não existentes são intrigantes. É difícil ver como seus símbolos se aplicam à situação descrita pelo OP.
whuber
O tamanho da sua amostra NUNCA vai para o infinito! Desde que você esteja desenhando amostras em um computador ( apenas em matemática pura, você poderá fazer tais suposições ). E o que isso significa: como você tem infinitos pontos, ele não converge? Onde você leu isso?
usar o seguinte código
@whuber Espero que esta versão seja um pouco mais clara. Entendo que o OP está perguntando por que o coeficiente de correlação da amostra (com base nas médias de séries temporais) entre dois segmentos finitos de passeios aleatórios não é zero, mesmo para séries temporais de imenso comprimento. Um problema fundamental é que, para uma caminhada aleatória, vários momentos da população não existem e as médias das séries temporais não convergem para nada.
Matthew Gunn
No entanto, para fixo, tudo é finito. Além disso, a expectativa do coeficiente de correlação absoluta amostra faz convergir como n aumenta! Note também que a pergunta diz respeito ao valor absoluto desse coeficiente. Sua expectativa (obviamente) é zero. nn
whuber
11
@whuber Você quer dizer com duração fixa de série temporal , tudo é finito? (sim, eu concordo com isso.) A expectativa da correlação da amostra é zero (sim, eu concordo com isso). No entanto, à medida que t aumenta, a correlação da amostra não converge para um único ponto. Para dois segmentos aleatórios de comprimento arbitrário, o coeficiente de correlação da amostra não está muito longe de um sorteio aleatório da distribuição uniforme em [0, 1] (consulte o histograma). tt
Matthew Gunn
15

A matemática necessária para obter um resultado exato é confusa, mas podemos derivar um valor exato para o coeficiente de correlação ao quadrado esperado de forma relativamente indolor. Ele ajuda a explicar por que um valor próximo de continua a mostrar-se e por que aumentar o comprimento1/2 do passeio aleatório não vai mudar as coisas.n

Existe potencial para confusão sobre termos padrão. A correlação absoluta referida na questão, juntamente com as estatísticas que a compõem - variações e covariâncias - são fórmulas que podem ser aplicadas a qualquer par de realizações de passeios aleatórios. A questão diz respeito ao que acontece quando olhamos para muitas realizações independentes. Para isso, precisamos assumir expectativas em relação ao processo de caminhada aleatória.


(Editar)

Antes de prosseguir, quero compartilhar algumas informações gráficas com você. Um par de passeios aleatórios independentes é um passeio aleatório em duas dimensões. Podemos traçar o caminho que passa de cada um ( X t , Y t ) para X t + 1 , Y t + 1 . Se esse caminho tender para baixo (da esquerda para a direita, plotado nos eixos XY usuais) , para estudar o valor absoluto da correlação , vamos negar todos os valores Y. Traçar os passeios em eixos dimensionados para dar o X e(X,Y)(Xt,Yt)Xt+1,Yt+1YXY valores iguais desvios padrão e sobrepor os mínimos quadrados de para X . As inclinações dessas linhas serão os valores absolutos dos coeficientes de correlação, situando-se sempre entre 0 e 1 .YX01

Esta figura mostra dessas caminhadas, cada uma com comprimento 960 (com diferenças normais normais). Pequenos círculos abertos marcam seus pontos de partida. As olheiras marcam seus locais finais.15960

Figura

Essas encostas tendem a ser bem grandes. Gráficos de dispersão perfeitamente aleatórios desses muitos pontos sempre teriam inclinações muito próximas de zero. Se tivéssemos que descrever os padrões emergentes aqui, poderíamos dizer que maioria das caminhadas aleatórias 2D migra gradualmente de um local para outro. (Porém, esses não são necessariamente os locais de início e de ponto final!) Cerca de metade do tempo, então, a migração ocorre na direção diagonal - e a inclinação é alta.

O restante deste post esboça uma análise dessa situação.


(Xi)(W1,W2,,Wn)Wiσ2

x=(x1,,xn)

V(x)=1n(xix¯)2.

Uma boa maneira de calcular esse valor é obter metade da média de todas as diferenças ao quadrado:

V(x)=1n(n1)j>i(xjxi)2.

xXn

E(V(X))=1n(n1)j>iE(XjXi)2.

As diferenças são somas de variáveis ​​iid,

XjXi=Wi+1+Wi+2++Wj.

WkWkσ2

E((Wi+1+Wi+2++Wj2))=(ji)σ2.

Segue-se facilmente que

E(V(X))=1n(n1)j>i(ji)σ2=n+16σ2.

xy

E(C(X,Y)2)=3n62n53n2+2n480n2(n1)2σ4.

XYn

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

Although this is not constant, it rapidly approaches a limiting value of 9/40. Its square root, approximately 0.47, therefore approximates the expected absolute value of ρ(n) (and underestimates it).


I am sure I have made computational errors, but simulations bear out the asymptotic accuracy. In the following results showing the histograms of ρ2(n) for 1000 simulations each, the vertical red lines show the means while the dashed blue lines show the formula's value. Clearly it's incorrect, but asymptotically it is right. Evidently the entire distribution of ρ2(n) is approaching a limit as n increases. Similarly, the distribution of |ρ(n)| (which is the quantity of interest) will approach a limit.

Figure

This is the R code to produce the figure.

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}
whuber
fonte
My Monte-Carlo simulation based estimate of E[ρ2] for T=100 is about .24 (which appears to agree with your results). I agree with your analysis here. You might be getting at how the OP come to his number (though I calculate about .42, not .56).
Matthew Gunn
Se você pode fazer desenhos repetidos de Ω, não há nada de especial na análise de séries temporais. Problemas (por exemplo, ergodicidade, estacionariedade etc ...) se desenvolvem quando você só pode observar novos valores deX avançando o tempo t que eu assumi ser o que o OP estava tentando obter ... (mas talvez não).
Matthew Gunn
1
+1 but what is the intuition about why there is this positive asymptotic value 9/40, whereas naively one would expect that if one takes two very long random walks they should have near-zero correlation, i.e. naively one would expect the distribution of correlations to shrink to zero as n grows?
amoeba says Reinstate Monica
@amoeba First, I don't fully believe the value of 9/40, but I know it's close to correct. For the intuition, consider that two independent walks Xt and Yt are a random walk (Xt,Yt) in two dimensions. Take any random scatterplot in 2D and measure its eccentricity somehow. It will be rare for it to be perfectly circular. Thus, we expect the mean eccentricity to be positive. That there is a limiting distribution for random walks merely reflects the self-similar "fractal" nature of this 2D walk.
whuber
2
An asymptotic analysis of the issues discussed here may be found in Phillips (1986), Theorem 1e.
Christoph Hanck