Se eu estiver selecionando 232 pessoas de um grupo de 363 pessoas sem substituição, qual é a probabilidade de 2 de uma lista de 12 pessoas específicas estar nessa seleção?
Este é um sorteio aleatório para uma corrida ultra, onde havia 363 participantes para 232 vagas. Há uma discussão sobre se a seleção foi tendenciosa contra um determinado grupo de 12 pessoas.
Minha tentativa inicial de calcular isso foi que havia 232 opções possíveis. O número de combinações de qualquer pessoa da lista de doze é 1, escolha 12 + 2, escolha 12 + ... + 11, escolha 12 + 12, escolha 12. Assim, 1 escolha 12 + 2, escolha 12 .... / 232, escolha 363 O que acaba sendo um número muito baixo, claramente baixo demais.
Como faço para calcular isso?
Respostas:
Interpreto a pergunta da seguinte maneira: suponha que a amostragem tenha sido supostamente realizada como se bilhetes de papel branco fossem colocados em um frasco, cada um rotulado com o nome de uma pessoa, e foram retirados aleatoriamente depois de agitar completamente o conteúdo do frasco. De antemão, dos ingressos eram de cor vermelha. Qual é a chance de exatamente dois dos tickets selecionados serem vermelhos? Qual é a chance de no máximo dois dos ingressos serem vermelhos?232 12363 232 12
Uma fórmula exata pode ser obtida, mas não precisamos fazer tanto trabalho teórico. Em vez disso, apenas rastreamos as chances quando os ingressos são retirados do pote. Na época deles foram retirados, deixar que a chance de que exatamente bilhetes vermelhos foram vistos ser escrito . Para começar, observe que se (você não pode ter tíquetes vermelhos antes de começar) (é certo que você não possui tíquetes vermelhos desde o início). Agora, no sorteio mais recente, o bilhete estava vermelho ou não. No primeiro caso, anteriormente tivemos a chance de ver exatamentei p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )m Eu p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 bilhetes vermelhos. Em seguida, aconteceu depois de puxar um vermelho das restantes bilhetes, tornando-se exatamente vermelho bilhetes até agora. Como assumimos que todos os ingressos têm chances iguais em todas as etapas, nossa chance de desenhar um vermelho dessa maneira foi, portanto, . No outro caso, tivemos a chance de obter exatamente bilhetes vermelhos nos sorteios anteriores , e a chance de não adicionar outro bilhete vermelho à amostra no próximo sorteio foi363 - m + 1 Eu ( 12 - i + 1 ) / ( 363 - m + 1 ) i m - 1 ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 )p ( i , m - 1 ) Eu m - 1 ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 ) . Daí, usando axiomas básicos de probabilidade (a saber, as chances de dois casos mutuamente exclusivos adicionam e as chances condicionais se multiplicam),
Repetimos esse cálculo recursivamente, estabelecendo uma matriz triangular dos valores de para e . Após um pouco de cálculo obtém-se e , respondendo a ambas as versões da pergunta. Estes são pequenos números: não importa como você o veja, são eventos muito raros (mais raros que um em mil).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0,000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0,000934314p ( i , m ) 0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0,000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0,000934314
Como checagem dupla, realizei este exercício com um computador 1.000.000 de vezes. Em 932 = 0,000932 desses experimentos, 2 ou menos tickets vermelhos foram observados. Isso é extremamente próximo do resultado calculado, porque a flutuação da amostra no valor esperado de 934,3 é de cerca de 30 (para cima ou para baixo). Aqui está como a simulação é feita em R:
Desta vez, como os experimentos são aleatórios, os resultados mudaram um pouco: dois ou menos bilhetes vermelhos foram observados em 948 dos milhões de tentativas. Isso ainda é consistente com o resultado teórico.)
A conclusão é que é altamente improvável que dois ou menos dos 232 ingressos sejam vermelhos. Se você realmente tem uma amostra de 232 de 363 pessoas, esse resultado é uma forte indicação de que o modelo tickets-in-a-jar não é uma descrição correta de como a amostra foi obtida. Explicações alternativas incluem (a) os tíquetes vermelhos foram mais difíceis de serem retirados do pote (um "viés" contra eles), bem como (b) os tíquetes foram coloridos após a observação da amostra ( bisbilhotagem post-hoc de dados, o que não indica nenhum viés).
Um exemplo da explicação (b) em ação seria um júri para um julgamento de assassinato notório. Suponha que incluísse 363 pessoas. Fora dessa piscina, o tribunal entrevistou 232 deles. Um repórter de jornal ambicioso revisa meticulosamente o conteúdo de todos na piscina e nota que 12 dos 363 eram apreciadores de peixes dourados, mas apenas dois deles foram entrevistados. O tribunal é tendencioso contra os criadores de peixes dourados? Provavelmente não.
fonte
sample
). De fato, a cada iteração,sample
os tickets são misturados completamente toda vez que é chamado antes de retirar 232 deles.@whuber deu uma explicação exaustiva, só quero ressaltar que existe uma distribuição estatística padrão correspondente a esse cenário: a distribuição hipergeométrica . Portanto, você pode obter essas probabilidades diretamente em, digamos, R:
Probabilidade de exatamente 2 dos 12 selecionados:
Probabilidade de 2 ou menos dos 12 selecionados:
fonte
As probabilidades são muito maiores do que as calculadas com a distribuição hipergeométrica simples, pois o grupo não é escolhido aleatoriamente ( "12 peixes são pintados de vermelho antes do sorteio" ).
A partir da descrição da pergunta, estamos testando uma fraude no sorteio. Um grupo específico de 12 pessoas reclamou que apenas 2 delas foram selecionadas, enquanto o número esperado era 232/363 ~ 2/3 = 8.
O que realmente precisamos calcular é quais são as chances de que " Nenhum grupo de tamanho 12 terá apenas 2 membros selecionados". As chances de que pelo menos um grupo tenha 2 ou menos (portanto se queixam da imparcialidade do empate) são muito maiores.
Quando executo essa simulação e verifico quantas das tentativas, nenhum dos 30 (= 360/12) grupos tinha 2 ou menos seleções, recebo cerca de 2,3% das vezes. 1:42 é baixo, mas não impossível.
Você ainda deve verificar o procedimento do sorteio, pois pode ser tendencioso contra um grupo específico de pessoas. Eles podem ter se reunido e recebido um intervalo do sorteio com menos probabilidade (o primeiro ou o último número, por exemplo), ou qualquer variável dependente do procedimento do sorteio. Mas se você não encontrar nenhuma falha no procedimento, poderá voltar às chances de 1:42 de que é simplesmente azar para o grupo.
fonte