Suponha que eu tenha uma urna contendo N cores diferentes de bolas e cada cor diferente possa aparecer um número diferente de vezes (se houver 10 bolas vermelhas, também não haverá 10 bolas azuis). Se conhecemos o conteúdo exato da urna antes de desenhar, podemos formar uma distribuição de probabilidade discreta que nos diz a probabilidade de desenhar cada cor de bola. O que eu estou querendo saber é como a distribuição muda depois de desenhar k bolas sem substituição da urna, em média. Entendo que, à medida que extraímos da urna, podemos atualizar a distribuição com o conhecimento do que foi retirado, mas o que quero saber é o que esperaríamos que fosse a forma da distribuição depois de removermos k balls. A distribuição muda em média ou permanece a mesma? Se não permanecer o mesmo, podemos escrever alguma fórmula para o que esperamos que a nova distribuição pareça, em média, depois de fazer k draws?
fonte
Respostas:
"Cálculo direto": haverá bolas de cores na urna. Vamos nos concentrar na probabilidade de desenhar uma cor específica, digamos branca , no segundo desenho. Deixe o número de bolas brancas ser . Seja a cor da bola obtida no ésimo empate.n m nw Xi i
É claro que esse mesmo argumento se aplica a qualquer cor no segundo desenho. Podemos aplicar o mesmo tipo de argumento recursivamente ao considerar empates posteriores.
[É claro que se poderia realizar um cálculo ainda mais direto. Considere os primeiros draws como consistindo de bolas brancas e não-white balls (com probabilidade dada pela distribuição hipergeométrica) e execute o cálculo correspondente ao simples acima, exceto no draw na etapa ; obtém-se uma simplificação e cancelamento semelhantes, mas não é especialmente esclarecedor de realizar.]k i k−i k+1
Um argumento mais curto: considere rotular as bolas aleatoriamente com os números e desenhá-las em ordem rotulada. A pergunta agora se torna "A probabilidade de um determinado rótulo, , ser colocado em uma bola branca é a mesma que a probabilidade de o rótulo ser colocado em uma bola branca?"1,2,...,n k 1
Agora vemos que a resposta deve ser "sim" pela simetria dos rótulos. Da mesma forma, pela simetria das cores da bola, não importa que disséssemos "branco", então o argumento de que o rótulo rótulo têm a mesma probabilidade se aplica a qualquer cor. Portanto, a distribuição no ésimo empate é a mesma do primeiro empate, desde que não tenhamos informações adicionais dos empates anteriores (ou seja, desde que as bolas empatadas anteriores não sejam vistas).k 1 k
fonte
A única razão pela qual não é perfeitamente óbvio que a distribuição permanece inalterada (desde que haja pelo menos uma bola) é que há muita informação. Vamos retirar o material que distrai.
Ignore, por um momento, a cor de cada bola. Concentre-se em uma bola. Suponha que bolas estejam prestes a ser removidas aleatoriamente (e não observadas) e, em seguida, uma bola será sacada e observada. Não faz diferença em que ordem a seleção ocorre, assim você pode observar a primeira bola sacada (e remover outras bolas, se insistir). Obviamente, a distribuição não mudou, porque não será afetada pela remoção das outras bolas.k + 1 k kk k+1 k k
Este argumento - embora perfeitamente válido - pode fazer com que algumas pessoas se sintam desconfortáveis. A análise a seguir pode ser aceita como mais rigorosa, porque não nos pede para ignorar a ordem de seleção.
Continue se concentrando na sua bola. Ele terá alguma probabilidade de ser selecionado como a bola °. Embora seja fácil calcular , não precisamos saber seu valor: tudo o que importa é que ele deve ter o mesmo valor para cada bola (porque todas as bolas são equivalentes) e que não é zero. Mas se fosse zero, nenhuma bola teria probabilidade de ser selecionada: portanto, enquanto houver pelo menos uma bola, . k + 1 p k p k ≠ 0pk k+1 pk pk≠0
Preste atenção nas cores novamente. Por definição, a chance de uma determinada cor ser escolhida (depois que bolas são removidas aleatoriamente) é a soma das chances de todas as bolas coloridas com originais divididas pela soma das chances de todas as bolas originais. Quando originalmente existem bolas da cor e total, esse valor ék C k C C nC k C kC C n
Quando não depende de , QED .k<n k
fonte
Permita que a distribuição do desenho de uma única bola - depois de já ter sacado bolas sem substituição - tenha a distribuição categórica dada a distribuição sobre essas distribuições categóricas .k E(Dk) Dk
Eu acho que você está perguntando se é constante.E(Dk)
Eu acho que é. Suponha que você acabe desenhando todas as bolas. Todas as permutações das bolas são igualmente prováveis. A probabilidade de desenhar inicialmente é . Você pode reorganizar suas escolhas para uma permutação igualmente provável, na qual sua primeira bola escolhida foi escolhida por último e sua segunda bola escolhida em primeiro lugar. Essa bola tem expectativa , que deve ser igual a devido à simetria. Por indução, os são todos iguais.E(D0) E(D1) E(D0) E(Di)
fonte
A "distribuição esperada" não muda. Pode-se usar um argumento martingale! Acrescentarei isso à resposta mais tarde (estou viajando agora).
A distribuição, condicionada aos empates anteriores (para os empates posteriores), muda apenas quando você realmente observa os empates. Se você puxa a bola da urna com a mão bem fechada e a joga fora sem observar sua cor (usei esse teatro efetivamente como demonstração de classe), a distribuição não muda. Esse fato tem uma explicação: probabilidade é sobre informação, probabilidade é um conceito de informação.
Portanto, as probabilidades mudam apenas quando você obtém novas informações (probabilidades condicionais, isto é). Desenhar a bola e jogá-la fora sem observá-la não fornece nenhuma informação nova; portanto, nada de novo para condicionar. Portanto, quando você condiciona o conjunto de informações reais, isso não foi alterado, portanto a distribuição condicional não pode ser alterada.
Agora não darei muito mais detalhes a essa resposta, apenas acrescentarei uma referência: Hosam M. Mahmoud: "Pólya Urn Models" (Chapman & Hall), que trata modelos de urna como o desta pergunta e também uma urna muito mais generalizada esquemas, também usando métodos de martingale para obter resultados-limite. Mas os métodos de martingale não são necessários para a pergunta neste post.
fonte