Soma de coeficientes de distribuição multinomial

10

Estou jogando um dado justo. Sempre que recebo 1, 2 ou 3, escrevo um '1'; sempre que recebo um 4, escrevo um '2'; sempre que recebo um 5 ou um 6, escrevo um '3'.

Seja N o número total de jogadas necessárias para o produto de todos os números que escrevi como 100000 . Eu quero calcular (ou aproximar) P(N25) , e uma aproximação pode ser dada como uma função da distribuição Normal.

Primeiro, eu sei que P(N11)=1 porque log3100.00010.48 . Agora, a , b e c sejam o número de vezes que escrevi a 1, 2 e 3, respectivamente. Então:

P(a,b,cn)={(na,b,c)(12)a(16)b(13)c if a+b+c=n0 otherwise

O que eu quero calcular é:

P(a+b+c252b3c100000)

Como faço para calcular isso?

--EDITAR:

Por isso, foi sugerido que eu pudesse substituir a condição por:

P(a+b+c25αa+βb+γcδ)

onde , , e .α=0β=log2γ=log3δ=log100000

Isso parece mais solucionável! Infelizmente ainda não tenho idéia de como resolvê-lo.

Pedro Carvalho
fonte
2
+1 Esse problema pode parecer um pouco mais familiar e se presta mais obviamente a soluções aproximadas, se você escrever a condição no formato onde e . αa+βb+γcδα=0,β=log(2),γ=log(3),δ=log(100000)
whuber
Eu adicionei essa nova maneira de escrever a condição, mas infelizmente ainda não tenho a menor idéia de como resolver isso!
Pedro Carvalho
Outra dica é que, se houver ocorrências de '2', você irá parar. Portanto, você pode aproximar isso com um binômio negativo com os parâmetros e (também com e ). A resposta exata também é gerenciável, pois não há muitas combinações. Além disso, a condição não é precisa - você precisa incluir que '2' ou '3' foram gravados no º rolo17170.5111/3N
probabilidade

Respostas:

1

A presente questão é um caso específico em que você está lidando com uma quantidade que é uma função linear de uma variável aleatória multinomial. É possível resolver seu problema exatamente, enumerando as combinações multinomiais que satisfazem a desigualdade necessária e somando a distribuição nesse intervalo. No caso em que é grande, isso pode se tornar computacionalmente inviável. Nesse caso, é possível obter uma distribuição aproximada usando a aproximação normal ao multinomial. Uma versão generalizada dessa aproximação é mostrada abaixo e, em seguida, é aplicada ao seu exemplo específico.N


Problema geral de aproximação: suponha que tenhamos uma sequência de variáveis ​​aleatórias permutáveis ​​com intervalo . Para qualquer , podemos formar o vetor de contagem , que conta o número de ocorrências de cada resultado nos primeiros valores da sequência. Como a sequência subjacente é intercambiável, o vetor count é distribuído como:1,2,...,mnNXX(n)(X1,X2,...,Xm)n

X ~ Mu(n,θ)θ=limnX(n)/n.

Agora, suponha que tenhamos algum vetor de pesos não negativos e usamos esses pesos para definir a função linear:w=(w1,w2,...,wm)

A(n)i=1mwiXi.

Como os pesos não são negativos, essa nova quantidade não diminui em . Em seguida, definimos o número , que é o menor número de observações necessárias para obter um valor mínimo especificado para nossa função linear. Queremos aproximar a distribuição de no caso em que esse valor é (estocástico) grande.nN(a)min{nN|A(n)a}N(a)


Resolvendo o problema geral de aproximação: Primeiramente, observamos que, como não diminui em (o que vale porque assumimos que todos os pesos são não negativos), temos:A(n)n

P(N(a)n)=P(N(a)>n1)=P(A(n1)<a).

Assim, a distribuição de está directamente relacionada com a distribuição de . Supondo que a quantidade anterior seja grande, podemos aproximar a distribuição da última substituindo o vetor aleatório discreto por uma aproximação contínua a partir da distribuição normal multivariada. Isso leva a uma aproximação normal para a quantidade linear , e podemos calcular diretamente os momentos dessa quantidade. Para fazer isso, usamos o fato de que , e para . Com alguma álgebra básica, isso nos dá:NAXA(n)E(Xi)=nθiV(Xi)=nθi(1θi)C(Xi,Xj)=nθiθjij

μE(1nA(n))=i=1mwiθi,

σ2V(1nA(n))=i=1mwiθi(i=1mwiθi)2=μ(1μ).

Tomar a aproximação normal do multinomial agora nos dá a distribuição aproximada . A aplicação desta aproximação produz:A(n) ~ N(nμ,nμ(1μ))

P(N(a)n)=P(A(n1)<a)Φ(a(n1)μ(n1)μ(1μ)).

(O símbolo é a notação padrão para a função de distribuição normal padrão.) É possível aplicar esta aproximação para encontrar probabilidades referentes à quantidade para um valor especificado de . Essa é uma aproximação básica que não tentou incorporar a correção de continuidade nos valores dos valores subjacentes da contagem multinomial. É obtido fazendo uma aproximação normal usando os mesmos dois primeiros momentos centrais da função linear exata.ΦN(a)a


Aplicação para o seu problema: No seu problema, você tem probabilidades , pesos e o valor de corte . Portanto, você tem (arredondamento para seis casas decimais) . Aplicando a aproximação acima, temos (arredondando para seis casas decimais):θ=(12,16,13)w=(0,ln2,ln3)a=ln100000μ=16ln2+13ln3=0.481729

P(N(a)25)Φ(ln100000240.481729240.499666)=Φ(0.019838)=0.492086.

Pela aplicação da distribuição multinomial exata, somando todas as combinações que atendem ao requisito , pode-se mostrar que o resultado exato é . Portanto, podemos ver que a aproximação está bem próxima da resposta exata no presente caso.P(A(24)<a)P(N(a)25)=0.483500

Esperamos que esta resposta lhe dê uma resposta para sua pergunta específica, além de colocá-la em uma estrutura mais geral de resultados probabilísticos que se aplicam a funções lineares de vetores aleatórios multinomiais. O presente método deve permitir que você obtenha soluções aproximadas para problemas do tipo geral que você está enfrentando, permitindo variações nos números específicos em seu exemplo.

Ben - Restabelecer Monica
fonte
0

Vamos fazer uma aproximação normal.

Primeiro, vamos reformular completamente o seu problema nos logs. Você começa em 0 no tempo t = 0. Em seguida, em cada etapa, você adiciona:

  • 0 com probabilidade 1/2

  • log(2) com probabilidade 1/6

  • log(3) com probabilidade 1/3

Você interrompe esse processo quando sua soma excede , momento em que analisa quantas jogadas efetuadas. O número de jogadas que você levou para chegar a esse ponto é ^log(105)N

Minha calculadora me diz que a média dos seus incrementos é: e que a variação é . Para referência, o ponto final é de portanto, chegaremos a ele em aproximadamente 24 etapas0.480.2511.51

Dependendo do fato de termos realizado 25 etapas, a distribuição da soma é aproximadamente um gaussiano centrado em 12,0 e com variação 6,25. Isso nos dá uma aproximação gaussiana aproximada dep(N25)0.5

Você precisaria observar os cumulantes da soma em N = 25 para saber se a aproximação gaussiana está correta ou não. Dado que os incrementos não são simétricos, o aprox pode não ser o melhor

Guillaume Dehaene
fonte
11
Você pode concluir a derivação para mim? Estou tendo dificuldade para vê-lo. Além disso, não existe uma maneira exata de calculá-lo?
Pedro Carvalho
11
Você não quer dizer "log (2)" e "log (3)" onde você tem log (1) e log (2)?
Glen_b -Reinstala Monica
@GuillaumeDehaene escreveu: .... Pelo meu cálculo, de duas maneiras diferentes, que é muito diferente de 0,5p(N25)0.5P(N25)=1P(N24)=1112729185663307164998372267786240.8266
wolfies 14/10/16
como você obtém P (n \ leq24) \ aprox. 0,18?
Guillaume Dehaene