Quais são algumas técnicas para amostrar duas variáveis aleatórias correlacionadas:
se suas distribuições de probabilidade são parametrizadas (por exemplo, log-normal)
se eles tiverem distribuições não paramétricas.
Os dados são duas séries temporais para as quais podemos calcular coeficientes de correlação diferentes de zero. Desejamos simular esses dados no futuro, assumindo que a correlação histórica e a série temporal CDF sejam constantes.
Para o caso (2), o análogo 1-D seria construir o CDF e obter uma amostra dele. Então eu acho que eu poderia construir um CDF 2-D e fazer a mesma coisa. No entanto, gostaria de saber se existe uma maneira de chegar perto usando os CDFs 1-D individuais e de alguma forma vinculando as escolhas.
Obrigado!
Respostas:
Eu acho que o que você está procurando é uma cópula. Você tem duas distribuições marginais (especificadas por cdfs paramétricos ou empíricos) e agora deseja especificar a dependência entre as duas. Para o caso bivariado, existem todos os tipos de opções, mas a receita básica é a mesma. Vou usar uma cópula gaussiana para facilitar a interpretação.
Para desenhar a partir da cópula gaussiana com matriz de correlaçãoC
Empate(Z=(Z1,Z2)∼N(0,C)
Defina para i = 1 , 2 (com Φ o cdf normal padrão). Agora U 1 , U 2 ∼ U [ 0 , 1 ] , mas eles são dependentes.Ui=Φ(Zi) i=1,2 Φ U1,U2∼U[0,1]
Defina onde F - 1 i é o (pseudo) inverso do cdf marginal da variável i . Isto implica que Y i seguir a distribuição desejada (este passo é apenas transformada inversa de amostragem).Yi=F−1i(Ui) F−1i i Yi
Voila! Experimente em alguns casos simples e veja histogramas marginais e pólos dispersos, é divertido.
Porém, não há garantia de que isso seja apropriado para sua aplicação específica (em particular, talvez você precise substituir a cópula gaussiana por at copula), mas isso deve ajudá-lo a começar. Uma boa referência na modelagem de cópulas é Nelsen (1999), Uma Introdução a Cópulas , mas também existem algumas introduções muito boas online.
fonte
Outro método popular é a "redução trivariada", queX1∼ Y+ Z e X2∼ W+ Z para que a correlação seja induzida pela variável aleatória Z . Observe que isso também é generalizável para mais de 2 dimensões, mas é mais complicado que o caso 2-d. Você pode pensar que só pode obter correlações positivas, mas, na verdade, também pode obter correlações negativas usandovocê e ( 1 - U) ao gerar variáveis aleatórias, isso induzirá uma correlação negativa nas distribuições.
Um terceiro método popular é (NORTA) NORmal To Anything ; gerar variáveis normais correlacionadas, transformá-las em variáveis aleatórias uniformes avaliando seus respectivos cdfs e, em seguida, usar essas "novas" variáveis aleatórias uniformes como fonte de aleatoriedade na geração de empates a partir da nova distribuição.
Além da abordagem de cópula (toda uma classe de métodos) mencionada em outro post, você também pode obter amostras da distribuição máxima de acoplamento, que é semelhante em espírito à abordagem de cópula. Você especifica distribuições marginais e a amostra do acoplamento máximo. Isso é realizado por 2 etapas de aceitação / rejeição, conforme descrito por Pierre Jacob aqui . Presumivelmente, esse método pode ser estendido para dimensões maiores que 2, mas pode ser mais complicado de alcançar. Observe que o acoplamento máximo induzirá uma correlação que depende dos valores dos parâmetros dos marginais. Veja este post para um bom exemplo disso na resposta de Xi'an à minha pergunta.
Se você estiver disposto a aceitar amostras aproximadas (na maioria dos casos), as técnicas do MCMC também serão uma opção para amostragem de distribuições multidimensionais.
Além disso, você pode usar métodos de aceitação / rejeição , mas normalmente é difícil encontrar uma densidade dominante para amostrar e avaliar a proporção dessa para a densidade desejada.
Esses são todos os métodos adicionais que consigo pensar, mas provavelmente há alguns que eu perdi.
fonte