Para explicar essa pergunta com mais detalhes, primeiro elaborarei minha abordagem:
- Simulei uma sequência de números aleatórios independentes .
Tomo então vezes a diferença; ou seja, eu crio as variáveis:
Observo que a autocorrelação (absoluta) de aumenta à medida que se torna maior; o ac se aproxima de 0,99 para . Ou seja, ao tomar a L-ésima ordem da diferença, criamos uma série de números altamente dependentes (sequência) a partir de uma sequência inicialmente independente.
Aqui estão alguns gráficos para ilustrar minhas observações:
Minhas perguntas:
Existe alguma teoria por trás dessa abordagem e suas implicações ou aplicações?
Isso indica que essa abordagem explora os pontos fracos de um gerador pseudo-aleatório (do computador). Ou seja, a sequência "aleatória" gerada não é verdadeiramente aleatória, e isso é ilustrado / comprovado pela minha abordagem?
Podemos explorar a alta autocorrelação da L-ésima ordem das diferenças, a fim de prever o próximo número na sequência (isto é, ). seja, se pudermos prever o próximo número de (por exemplo, por regressão linear), podemos deduzir de volta a sequência estimada tomando vezes a soma cumulativa. Essa é uma abordagem viável?
Objetivo Observe que estou tentando prever , mas como os números são gerados de forma independente e aleatória, isso é muito difícil (baixa CA de ).
fonte
Respostas:
Teoria
Se a autocorrelação tiver algum significado, devemos supor que as variáveis aleatórias originais tenham a mesma variação, que - por uma escolha adequada de unidades de medida - podemos definir como unidade. A partir da fórmula para a diferença finitaX0,X1,…,XN Lth
para e a independência do , calculamos prontamente0≤i≤N−L Xi
e para e ,0<j<L i≤N−L−j
Dividindo por dá o lag- de série correlação . É negativo para impar e positivo para par .(2) (1) j ρj j j
A fórmula de Stirling fornece uma aproximação facilmente interpretável
Em função de sua magnitude é aproximadamente uma curva gaussiana (em forma de sino), como seria de esperar de qualquer procedimento baseado em difusão, como diferenças sucessivas. Aqui está um gráfico deatravés deem função de , mostrando a rapidez com que a correlação serial se aproxima . Em ordem de cima para baixo, os pontos representamatravés de.j |ρ1| |ρ5| L 1 |ρ1| |ρ5|
Conclusões
Por serem relações puramente matemáticas, elas revelam pouco sobre o . Em particular, porque todas as diferenças finitas são combinações lineares das variáveis originais, elas não fornecem informações adicionais que possam ser usadas para prever de .Xi XN+1 X0,X1,…,XN
Observações práticas
À medida que cresce, os coeficientes nas combinações lineares crescem exponencialmente. Observe que cada é uma soma alternada: especificamente, no meio dessa soma, aparecem coeficientes relativamente grandes próximos a . Considere os dados reais sujeitos a um pouco de ruído aleatório. Esse ruído é multiplicado por esses grandes coeficientes binomiais e, em seguida, esses grandes resultados são quase cancelados pela adição e subtração alternadas. Como resultado, computando essas diferenças finitas para grandesL X(L)i (LL/2) L tende a apagar todas as informações dos dados e reflete apenas pequenas quantidades de ruído, incluindo erro de medição e erro de arredondamento de ponto flutuante. Os padrões aparentes nas diferenças mostradas na pergunta para e quase certamente não fornecem informações significativas. (Os coeficientes binomiais para são tão grandes quanto e tão pequenos quanto , implicando um erro de ponto flutuante de precisão dupla dominando o cálculo.)L=100 L=168 L=100 1029 1
fonte
Isso é mais um comentário ou, na melhor das hipóteses, talvez mais uma pista para resolver sua pergunta, mas minha reputação não me permite postar comentários.
Eu repliquei sua experiência no Stata usando desenhos de um Normal padrão com o seguinte código:
Olhando para os correlogramas das variáveis diferenciadas, fiquei pensando por que as faixas de confiança são tão pequenas. Eu nunca vi faixas tão pequenas de confiança em um correlograma Stata. Alguma ideia?
Eu estava pensando que isso poderia ser uma pista, porque, com faixas de confiança tão pequenas, até as pequenas autocorrelações dos mais atrasados estão sendo contadas na sua autocorrelação absoluta, se estou interpretando "absoluto" corretamente.
Aqui está o correlograma para o meu dX_10 ...
... e aqui está novamente, ampliado nos 10 primeiros atrasos ...
fonte
Isso é esperado porque as diferenças não são independentes uma da outra. Por exemplo, é diretamente proporcional a enquanto é inversamente proporcional aComo as definições de elementos consecutivos de compartilham elementos de dessa maneira inversa, esperamos que eles sejam inversamente correlacionados. De fato, à medida que avançamos para diferenças de ordem superior , valores consecutivos compartilham uma fração cada vez mais alta dos elementos de que entram em sua definição e sua anticorrelação aumenta. No entanto, se não soubéssemos o elemento compartilhado (dX1(1)≡X(2)−X(1) X(2) dX1(2)≡X(3)−X(2) X(2). dX1 X dXi X X(2) no meu exemplo) não poderíamos calcular nenhuma diferença que inclua esse elemento. Portanto, não podemos usar as anticorrelações nas diferenças para prever elementos desconhecidos de se eles forem gerados independentemente dos elementos conhecidos.X
fonte