Eu observei que, em média, o valor absoluto do coeficiente de correlação de Pearson é uma constante próxima a qualquer par de passeios aleatórios independentes, independentemente do comprimento do passeio.0.56
0.42
Alguém pode explicar esse fenômeno?
Eu esperava que as correlações diminuíssem à medida que o comprimento da caminhada aumenta, como em qualquer sequência aleatória.
Para minhas experiências, usei caminhadas gaussianas aleatórias com média de passo 0 e desvio padrão de passo 1.
ATUALIZAR:
Eu esqueci de centralizar os dados, é por isso que eles foram 0.56
substituídos 0.42
.
Aqui está o script Python para calcular as correlações:
import numpy as np
from itertools import combinations, accumulate
import random
def compute(length, count, seed, center=True):
random.seed(seed)
basis = []
for _i in range(count):
walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
if center:
walk -= np.mean(walk)
basis.append(walk / np.sqrt(np.dot(walk, walk)))
return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])
print(compute(10000, 1000, 123))
Respostas:
Seus processos independentes não estão correlacionados! Se e Y t são passeios aleatórios independentes:Xt Yt
Intuitivamente, você pode adivinhar (incorretamente) que:
O problema é que nenhuma dessas afirmações é verdadeira para passeios aleatórios! (Eles são verdadeiros para processos com melhor comportamento.)
Para processos não estacionários:
Os problemas no caso de uma caminhada aleatória?
Se você tiver várias observações de duas caminhadas aleatórias independentes ao longo do tempo (por exemplo, , X 2X1 X2 , etc ... e , Y 2 , ....) e calcular o coeficiente de correlação da amostra, obterá um número entre - 1 e 1 . Mas não será uma aproximação do coeficiente de correlação populacional (que não existe).Y1 Y2 −1 1
Em vez (calculado utilizando as médias de séries temporais a partir de t = 1 para tρ^XY(T) t=1 ) vai ser basicamente uma variável aleatória (tomando valores em [ - 1 , 1 ] ), que reflecte os dois caminhos particulares os passeios aleatórios tomados por acaso (ou seja, os caminhos definidos pelo desenho ω extraído do espaço da amostra Ω .) Falando de maneira extremamente vaga (e imprecisa):t=T [−1,1] ω Ω
Você pode pesquisar mais no Google sobre isso com os termos
spurious regression random walk
.Um passeio aleatório não é estacionária e tendo médias ao longo do tempo não irá convergir para o que você iria ficar tomando iid chama ω a partir de amostra de espaço Ω . Como mencionado nos comentários acima, você pode fazer as primeiras diferenças Δ x t = x t -t ω Ω e, para uma caminhada aleatória, esse processo { Δ x t } é estacionário.Δ xt=xt−xt−1 {Δxt}
Grande ideia:
Várias observações ao longo do tempo NÃO É o mesmo que vários sorteios de um espaço de amostra!
Lembre-se de que um processo estocástico de tempo discreto é uma função do tempo ( t ∈ N ) e de um espaço de amostra Ω .{Xt} t∈N Ω
Para que as médias ao longo do tempo convergam para as expectativas em um espaço de amostra Ω , você precisa de estacionariedade e ergodicidade . Esse é um problema central em muitas análises de séries temporais. E uma caminhada aleatória não é um processo estacionário.t Ω
Conexão com a resposta do WHuber:
Se você pode calcular médias em várias simulações (ou seja, tirar vários desenhos de ) em vez de ser forçado a calcular médias no tempo t , vários problemas desaparecem.Ω t
Pode, claro, definir ρ X Y ( t ) como o coeficiente de correlação calculado amostra em X 1 ... X tρ^XY(t) X1…Xt e e este será também um processo estocástico.Y1…Yt
Você pode definir algumas variáveis aleatórias como:Zt
Para dois passeios aleatórios começando em com incrementos de N ( 0 , 1 ) , é fácil encontrar E [ Z 10000 ] por simulação (ou seja, usando vários desenhos de Ω .)0 N(0,1) E[Z10000] Ω
Abaixo, fiz uma simulação de 10.000 cálculos de um coeficiente de correlação de Pearson de amostra. Cada vez que eu:
Abaixo está um histograma mostrando a distribuição empírica sobre os 10000 coeficientes de correlação calculados.
Pode observar claramente que a variável aleatória ρ X Y ( 10000 ) pode ser em todo o lugar no intervalo [ - 1 , 1 ]ρ^XY(10000) [−1,1] . Para dois caminhos fixos de e Y , o coeficiente de correlação da amostra não converge para nada à medida que a duração da série temporal aumenta.X Y
Por outro lado, por um tempo específico (por exemplo, ), o coeficiente de correlação amostra é uma variável aleatória com uma média finito etc ... Se tomo do valor absoluto e calcular a média sobre todas as simulações, Eu calculo aproximadamente 0,42. Não sei por que você quer fazer isso ou por que isso tem algum significado ?, mas é claro que você pode.t=10,000
Código:
fonte
A matemática necessária para obter um resultado exato é confusa, mas podemos derivar um valor exato para o coeficiente de correlação ao quadrado esperado de forma relativamente indolor. Ele ajuda a explicar por que um valor próximo de continua a mostrar-se e por que aumentar o comprimento1/2 do passeio aleatório não vai mudar as coisas.n
Existe potencial para confusão sobre termos padrão. A correlação absoluta referida na questão, juntamente com as estatísticas que a compõem - variações e covariâncias - são fórmulas que podem ser aplicadas a qualquer par de realizações de passeios aleatórios. A questão diz respeito ao que acontece quando olhamos para muitas realizações independentes. Para isso, precisamos assumir expectativas em relação ao processo de caminhada aleatória.
(Editar)
Antes de prosseguir, quero compartilhar algumas informações gráficas com você. Um par de passeios aleatórios independentes é um passeio aleatório em duas dimensões. Podemos traçar o caminho que passa de cada um ( X t , Y t ) para X t + 1 , Y t + 1 . Se esse caminho tender para baixo (da esquerda para a direita, plotado nos eixos XY usuais) , para estudar o valor absoluto da correlação , vamos negar todos os valores Y. Traçar os passeios em eixos dimensionados para dar o X e(X,Y) (Xt,Yt) Xt+1,Yt+1 Y X Y valores iguais desvios padrão e sobrepor os mínimos quadrados de para X . As inclinações dessas linhas serão os valores absolutos dos coeficientes de correlação, situando-se sempre entre 0 e 1 .Y X 0 1
Esta figura mostra dessas caminhadas, cada uma com comprimento 960 (com diferenças normais normais). Pequenos círculos abertos marcam seus pontos de partida. As olheiras marcam seus locais finais.15 960
Essas encostas tendem a ser bem grandes. Gráficos de dispersão perfeitamente aleatórios desses muitos pontos sempre teriam inclinações muito próximas de zero. Se tivéssemos que descrever os padrões emergentes aqui, poderíamos dizer que maioria das caminhadas aleatórias 2D migra gradualmente de um local para outro. (Porém, esses não são necessariamente os locais de início e de ponto final!) Cerca de metade do tempo, então, a migração ocorre na direção diagonal - e a inclinação é alta.
O restante deste post esboça uma análise dessa situação.
Uma boa maneira de calcular esse valor é obter metade da média de todas as diferenças ao quadrado:
As diferenças são somas de variáveis iid,
Segue-se facilmente que
Although this is not constant, it rapidly approaches a limiting value of9/40 . Its square root, approximately 0.47 , therefore approximates the expected absolute value of ρ(n) (and underestimates it).
I am sure I have made computational errors, but simulations bear out the asymptotic accuracy. In the following results showing the histograms ofρ2(n) for 1000 simulations each, the vertical red lines show the means while the dashed blue lines show the formula's value. Clearly it's incorrect, but asymptotically it is right. Evidently the entire distribution of ρ2(n) is approaching a limit as n increases. Similarly, the distribution of |ρ(n)| (which is the quantity of interest) will approach a limit.
This is the
R
code to produce the figure.fonte