Quais são algumas técnicas para amostrar duas variáveis ​​aleatórias correlacionadas?

15

Quais são algumas técnicas para amostrar duas variáveis ​​aleatórias correlacionadas:

  • se suas distribuições de probabilidade são parametrizadas (por exemplo, log-normal)

  • se eles tiverem distribuições não paramétricas.

Os dados são duas séries temporais para as quais podemos calcular coeficientes de correlação diferentes de zero. Desejamos simular esses dados no futuro, assumindo que a correlação histórica e a série temporal CDF sejam constantes.

Para o caso (2), o análogo 1-D seria construir o CDF e obter uma amostra dele. Então eu acho que eu poderia construir um CDF 2-D e fazer a mesma coisa. No entanto, gostaria de saber se existe uma maneira de chegar perto usando os CDFs 1-D individuais e de alguma forma vinculando as escolhas.

Obrigado!

Pete
fonte
3
Vincular CDFs 1-D me faz pensar em cópulas . Não tenho certeza se seria útil para você.
onestop 22/02

Respostas:

23

Eu acho que o que você está procurando é uma cópula. Você tem duas distribuições marginais (especificadas por cdfs paramétricos ou empíricos) e agora deseja especificar a dependência entre as duas. Para o caso bivariado, existem todos os tipos de opções, mas a receita básica é a mesma. Vou usar uma cópula gaussiana para facilitar a interpretação.

Para desenhar a partir da cópula gaussiana com matriz de correlação C

  1. Empate (Z=(Z1,Z2)N(0,C)

  2. Defina para i = 1 , 2 (com Φ o cdf normal padrão). Agora U 1 , U 2U [ 0 , 1 ] , mas eles são dependentes.Ui=Φ(Zi)i=1,2ΦU1,U2U[0,1]

  3. Defina onde F - 1 i é o (pseudo) inverso do cdf marginal da variável i . Isto implica que Y i seguir a distribuição desejada (este passo é apenas transformada inversa de amostragem).Yi=Fi1(Ui)Fi1iYi

Voila! Experimente em alguns casos simples e veja histogramas marginais e pólos dispersos, é divertido.

Porém, não há garantia de que isso seja apropriado para sua aplicação específica (em particular, talvez você precise substituir a cópula gaussiana por at copula), mas isso deve ajudá-lo a começar. Uma boa referência na modelagem de cópulas é Nelsen (1999), Uma Introdução a Cópulas , mas também existem algumas introduções muito boas online.

JMS
fonte
2
+1 Nelsen é bastante legível. Comprei uma cópia há alguns anos, mesmo depois de analisar muitos materiais on-line.
whuber
1
Encontrei um ótimo artigo tutorial e uma planilha que o acompanha: behan.ws/copula.pdf e soa.org/files/xls/rsrch-copula-ex.xls
Pete
1
@Pete, o jornal é realmente bom. O link da planilha, por outro lado, está morto
Boris Gorelik
Parece que as versões recentes do Mathematica e do Matlab já possuem funções internas que lidam com esse problema?
LCFactorization
o que fazer se eu quiser fazer o mesmo com uma cópula de Plackett? existe uma relação entre cópula Normal e Plackett?
fedvasu 8/01
2

Outro método popular é a "redução trivariada", que X1Y+Z e X2W+Z para que a correlação seja induzida pela variável aleatória Z. Observe que isso também é generalizável para mais de 2 dimensões, mas é mais complicado que o caso 2-d. Você pode pensar que só pode obter correlações positivas, mas, na verdade, também pode obter correlações negativas usandovocê e (1-você) ao gerar variáveis ​​aleatórias, isso induzirá uma correlação negativa nas distribuições.

Um terceiro método popular é (NORTA) NORmal To Anything ; gerar variáveis ​​normais correlacionadas, transformá-las em variáveis ​​aleatórias uniformes avaliando seus respectivos cdfs e, em seguida, usar essas "novas" variáveis ​​aleatórias uniformes como fonte de aleatoriedade na geração de empates a partir da nova distribuição.

Além da abordagem de cópula (toda uma classe de métodos) mencionada em outro post, você também pode obter amostras da distribuição máxima de acoplamento, que é semelhante em espírito à abordagem de cópula. Você especifica distribuições marginais e a amostra do acoplamento máximo. Isso é realizado por 2 etapas de aceitação / rejeição, conforme descrito por Pierre Jacob aqui . Presumivelmente, esse método pode ser estendido para dimensões maiores que 2, mas pode ser mais complicado de alcançar. Observe que o acoplamento máximo induzirá uma correlação que depende dos valores dos parâmetros dos marginais. Veja este post para um bom exemplo disso na resposta de Xi'an à minha pergunta.

Se você estiver disposto a aceitar amostras aproximadas (na maioria dos casos), as técnicas do MCMC também serão uma opção para amostragem de distribuições multidimensionais.

Além disso, você pode usar métodos de aceitação / rejeição , mas normalmente é difícil encontrar uma densidade dominante para amostrar e avaliar a proporção dessa para a densidade desejada.

Esses são todos os métodos adicionais que consigo pensar, mas provavelmente há alguns que eu perdi.

Lucas Roberts
fonte