A distribuição de probabilidade de uma urna muda à medida que você extrai dela, sem substituição, em média?

9

Suponha que eu tenha uma urna contendo N cores diferentes de bolas e cada cor diferente possa aparecer um número diferente de vezes (se houver 10 bolas vermelhas, também não haverá 10 bolas azuis). Se conhecemos o conteúdo exato da urna antes de desenhar, podemos formar uma distribuição de probabilidade discreta que nos diz a probabilidade de desenhar cada cor de bola. O que eu estou querendo saber é como a distribuição muda depois de desenhar k bolas sem substituição da urna, em média. Entendo que, à medida que extraímos da urna, podemos atualizar a distribuição com o conhecimento do que foi retirado, mas o que quero saber é o que esperaríamos que fosse a forma da distribuição depois de removermos k balls. A distribuição muda em média ou permanece a mesma? Se não permanecer o mesmo, podemos escrever alguma fórmula para o que esperamos que a nova distribuição pareça, em média, depois de fazer k draws?

mjnichol
fonte
11
Eu posso estar errado - mas parece que se sabe a distribuição anterior, mas não há informações sobre a probabilidade (além de que k balls são removidas). nesse caso - eu assumiria que o posterior é igual ao anterior. Para ser justo - há informações de probabilidade de que o número de bolas tenha diminuído e que (para uma bola removida) a distribuição seja, por exemplo, bimodal entre 50% de possibilidade de 9 vermelho e 10 preto e 50% de possibilidade de 10 vermelho e 9 preto . i mgiht estar errado aqui, porém
Wouter
Minha intuição é que é como o último caso que você descreveu. Não consigo encontrar ninguém falando sobre esse tipo de processo.
Mjnichol

Respostas:

7
  1. "Cálculo direto": haverá bolas de cores na urna. Vamos nos concentrar na probabilidade de desenhar uma cor específica, digamos branca , no segundo desenho. Deixe o número de bolas brancas ser . Seja a cor da bola obtida no ésimo empate.nmnwXii

    P(X2=W)=P(X2=W|X1=W)P(X1=W)+P(X2=W|X1=W¯)P(X1=W¯)=nw1n1nwn+nwn1nnwn=nw(nnw+nw1)n(n1)=nwn=P(X1=W)

    É claro que esse mesmo argumento se aplica a qualquer cor no segundo desenho. Podemos aplicar o mesmo tipo de argumento recursivamente ao considerar empates posteriores.

    [É claro que se poderia realizar um cálculo ainda mais direto. Considere os primeiros draws como consistindo de bolas brancas e não-white balls (com probabilidade dada pela distribuição hipergeométrica) e execute o cálculo correspondente ao simples acima, exceto no draw na etapa ; obtém-se uma simplificação e cancelamento semelhantes, mas não é especialmente esclarecedor de realizar.]kikik+1

  2. Um argumento mais curto: considere rotular as bolas aleatoriamente com os números e desenhá-las em ordem rotulada. A pergunta agora se torna "A probabilidade de um determinado rótulo, , ser colocado em uma bola branca é a mesma que a probabilidade de o rótulo ser colocado em uma bola branca?"1,2,...,nk1

    Agora vemos que a resposta deve ser "sim" pela simetria dos rótulos. Da mesma forma, pela simetria das cores da bola, não importa que disséssemos "branco", então o argumento de que o rótulo rótulo têm a mesma probabilidade se aplica a qualquer cor. Portanto, a distribuição no ésimo empate é a mesma do primeiro empate, desde que não tenhamos informações adicionais dos empates anteriores (ou seja, desde que as bolas empatadas anteriores não sejam vistas).k1k

Glen_b -Reinstate Monica
fonte
Intimamente relacionado ao seu segundo caminho, há outro argumento curto: imagine o conjunto de todas as seqüências possíveis nas quais as bolas podem ser removidas (por exemplo, primeiro azul, depois branco, depois branco ... pode ser uma dessas seqüências). Se para cada sequência neste conjunto trocarmos os elementos e , simplesmente permutaremos o conjunto. Portanto, para cada sequência com uma bola branca (ou qualquer outra coisa) na posição , existe exatamente uma sequência correspondente com uma bola branca na posição . Portanto, a probabilidade de uma bola branca na posição ou na posição deve ser a mesma. Eu acho que esse é essencialmente o argumento de Neil. k t h k 1 k 11stkthk1k1
10282 Silverfish
@ Silverfish Sim, olhando para ele, meu segundo argumento é essencialmente o mesmo tipo de argumento que o argumento de permutação de Neil.
Glen_b -Reinstar Monica
Obrigada pelo esclarecimento. Era exatamente o que eu precisava ver!
Mjnichol
6

A única razão pela qual não é perfeitamente óbvio que a distribuição permanece inalterada (desde que haja pelo menos uma bola) é que há muita informação. Vamos retirar o material que distrai.

Ignore, por um momento, a cor de cada bola. Concentre-se em uma bola. Suponha que bolas estejam prestes a ser removidas aleatoriamente (e não observadas) e, em seguida, uma bola será sacada e observada. Não faz diferença em que ordem a seleção ocorre, assim você pode observar a primeira bola sacada (e remover outras bolas, se insistir). Obviamente, a distribuição não mudou, porque não será afetada pela remoção das outras bolas.k + 1 k kkk+1kk


Este argumento - embora perfeitamente válido - pode fazer com que algumas pessoas se sintam desconfortáveis. A análise a seguir pode ser aceita como mais rigorosa, porque não nos pede para ignorar a ordem de seleção.

Continue se concentrando na sua bola. Ele terá alguma probabilidade de ser selecionado como a bola °. Embora seja fácil calcular , não precisamos saber seu valor: tudo o que importa é que ele deve ter o mesmo valor para cada bola (porque todas as bolas são equivalentes) e que não é zero. Mas se fosse zero, nenhuma bola teria probabilidade de ser selecionada: portanto, enquanto houver pelo menos uma bola, . k + 1 p k p k0pkk+1pkpk0

Preste atenção nas cores novamente. Por definição, a chance de uma determinada cor ser escolhida (depois que bolas são removidas aleatoriamente) é a soma das chances de todas as bolas coloridas com originais divididas pela soma das chances de todas as bolas originais. Quando originalmente existem bolas da cor e total, esse valor ék C k C C nCkCkCCn

Prk(C)=kcpknpk=kcn.

Quando não depende de , QED .k<nk

whuber
fonte
Obrigado pelo comentário. Isso me ajudou a entender mais os processos subjacentes!
Mjnichol
2

Permita que a distribuição do desenho de uma única bola - depois de já ter sacado bolas sem substituição - tenha a distribuição categórica dada a distribuição sobre essas distribuições categóricas .kE(Dk)Dk

Eu acho que você está perguntando se é constante.E(Dk)

Eu acho que é. Suponha que você acabe desenhando todas as bolas. Todas as permutações das bolas são igualmente prováveis. A probabilidade de desenhar inicialmente é . Você pode reorganizar suas escolhas para uma permutação igualmente provável, na qual sua primeira bola escolhida foi escolhida por último e sua segunda bola escolhida em primeiro lugar. Essa bola tem expectativa , que deve ser igual a devido à simetria. Por indução, os são todos iguais.E(D0)E(D1)E(D0)E(Di)

Neil G
fonte
Você quer dizer que estou perguntando se é constante para cada k, certo? E(Dk)
Mjnichol
@mjnichol right
Neil G
0

A "distribuição esperada" não muda. Pode-se usar um argumento martingale! Acrescentarei isso à resposta mais tarde (estou viajando agora).

A distribuição, condicionada aos empates anteriores (para os empates posteriores), muda apenas quando você realmente observa os empates. Se você puxa a bola da urna com a mão bem fechada e a joga fora sem observar sua cor (usei esse teatro efetivamente como demonstração de classe), a distribuição não muda. Esse fato tem uma explicação: probabilidade é sobre informação, probabilidade é um conceito de informação.

Portanto, as probabilidades mudam apenas quando você obtém novas informações (probabilidades condicionais, isto é). Desenhar a bola e jogá-la fora sem observá-la não fornece nenhuma informação nova; portanto, nada de novo para condicionar. Portanto, quando você condiciona o conjunto de informações reais, isso não foi alterado, portanto a distribuição condicional não pode ser alterada.

 EDIT

Agora não darei muito mais detalhes a essa resposta, apenas acrescentarei uma referência: Hosam M. Mahmoud: "Pólya Urn Models" (Chapman & Hall), que trata modelos de urna como o desta pergunta e também uma urna muito mais generalizada esquemas, também usando métodos de martingale para obter resultados-limite. Mas os métodos de martingale não são necessários para a pergunta neste post.

kjetil b halvorsen
fonte
A distribuição (para os sorteios posteriores) não muda, mesmo quando você realmente observa os sorteios. Por que observar algo muda alguma coisa?
21415 Neil G
11
@ Neil Acho que o kjetil está se referindo à distribuição condicional dos empates observados .
Silverfish
@ Silverfish: Ah eu entendo. Você está certo, minhas desculpas.
11115 Neil G
Vou editar para deixar mais claro quando estiver em casa em duas semanas. Por enquanto, férias em Venezia ...
kjetil b halvorsen