Estou simplificando uma pergunta de pesquisa que tenho no trabalho. Imagine que eu tenho 5 moedas e vamos chamar de chefes um sucesso. São moedas MUITO tendenciosas com probabilidade de sucesso p = 0,1. Agora, se as moedas eram independentes, em seguida, obter a probabilidade de pelo menos 1 cabeças ou mais é muito simples, . No meu cenário, meus testes de Bernoulli (sorteio) não são independentes. As únicas informações às quais tenho acesso são a probabilidade de sucesso (cada uma é p = 0,1) e as correlações teóricas de Pearson entre as variáveis binárias.
Existe alguma maneira de calcular a probabilidade de um sucesso ou mais somente com essas informações? Estou tentando evitar uma abordagem baseada em simulação, porque esses resultados teóricos serão usados para orientar a precisão de um estudo de simulação. Eu estive examinando a distribuição multivariada de Bernoulli, mas não acho que possa especificá-la completamente apenas com correlações e probabilidades marginais de sucesso. Um amigo meu recomendou construir uma cópula gaussiana com marginais de bernoulli (usando o pacote R copula
) e depois usar a pMvdc()
função em uma amostra grande para obter a probabilidade que eu quero, mas não sei exatamente como fazê-lo.
Respostas:
Não, isso é impossível sempre que você tiver três ou mais moedas.
O caso de duas moedas
Vamos primeiro ver por que ele funciona para duas moedas, pois isso fornece alguma intuição sobre o que se quebra no caso de mais moedas.
Seja e Y denotem as variáveis distribuídas de Bernoulli correspondentes aos dois casos, X ∼ B e r ( p ) , Y ∼ B e r ( q ) . Primeiro, lembre-se de que a correlação de X e Y éX Y X∼ B e r ( p ) Y∼ B e r ( q) X Y
e como você conhece os marginais, você conhece , E [ Y ] , V a r ( X ) e V a r ( Y ) ; portanto, conhecendo a correlação, você também conhece E [ X Y ] . Agora, X Y = 1 se e somente se ambos X = 1 e Y = 1 , então E [ X Y ] = P (E[X] E[Y] Var(X) Var(Y) E[XY] XY=1 X=1 Y=1
Ao conhecer os marginais, sabe , e q = P ( X = 0 , Y = 1 ) + P ( X = 1 , Y = 1 ) . Como acabamos de descobrir que você conhece P ( X = 1 , Yp=P(X=1,Y=0)+P(X=1,Y=1) q=P(X=0,Y=1)+P(X=1,Y=1) , isso significa que você também conhece P ( X = 1 , Y = 0 ) e P ( X = 0 , Y = 0 ) , mas agora está pronto, pois a probabilidade que você está procurando éP(X=1,Y=1) P(X=1,Y=0) P(X=0,Y=0)
Agora, pessoalmente, acho tudo isso mais fácil de ver com uma foto. Seja . Então, podemos imaginar as várias probabilidades como formando um quadrado:Pij=P(X=i,Y=j)
Aqui, vimos que conhecer as correlações significava que você podia deduzir marcado em vermelho e que, conhecendo os marginais, sabia a soma de cada aresta (uma das quais é indicada com um retângulo azul).P11
O caso de três moedas
Isso não será tão fácil para três moedas; intuitivamente, não é difícil perceber o porquê: conhecendo os marginais e a correlação, você conhece um total de parâmetros, mas a distribuição conjunta tem 2 3 = 8 resultados, mas sabendo as probabilidades para 7 deles, você pode descobrir o último; agora, 7 > 6 , parece razoável que se possa preparar duas distribuições conjuntas diferentes cujos marginais e correlações são iguais e que se possa permutar as probabilidades até que as que você procura sejam diferentes.6=3+3 23=8 7 7>6
Sejam , Y e Z as três variáveis e sejamX Y Z
Nesse caso, a imagem acima se torna a seguinte:
As dimensões foram aumentadas por uma: o vértice vermelho se tornou várias arestas coloridas e a aresta coberta por um retângulo azul se tornou uma face inteira. Aqui, o plano azul indica que, conhecendo o marginal, você sabe a soma das probabilidades dentro; para aquele na foto,
Portanto, isso coloca algumas limitações em possíveis distribuições conjuntas, mas agora reduzimos o exercício ao exercício combinatório de colocar números nos vértices de um cubo. Sem mais delongas, vamos fornecer duas distribuições conjuntas cujos marginais e correlações são os mesmos:
Quatro ou mais moedas
Finalmente, quando temos mais de três moedas, não deve surpreender que possamos elaborar exemplos que falham, pois agora temos uma discrepância ainda maior entre o número de parâmetros necessários para descrever a distribuição conjunta e os fornecidos a nós pelos marginais e correlações.
Concretamente, para qualquer número de moedas maior que três, você pode simplesmente considerar os exemplos cujas três primeiras moedas se comportam como nos dois exemplos acima e para as quais os resultados das duas moedas finais são independentes de todas as outras moedas.
fonte
Os ensaios correlatos de Bernoulli levam a uma distribuição beta-binomial para os resultados contados. Deve ser possível parametrizar essa distribuição para fornecer um valor de correlação especificado e, em seguida, calcular a probabilidade desejada.
fonte