Nos fóruns de nomes de bebês, os possíveis pais repetem uma versão do Medo de Jennifer o tempo todo: "Não quero que meu filho seja um dos cinco da turma com o nome dele". O fato é que nenhum nome chega nem perto desse tipo de popularidade e, mesmo no auge da moda de Jennifer, você não conseguiu cinco deles em uma classe. Eu gostaria de algum tipo de resposta para esses pais sobre o quão improvável seria essa coincidência de repetição de nomes.
Usando os extensos dados de nomes de bebês da Social Security Administration ( https://www.ssa.gov/oact/babynames/limits.html ), alguém pode me dizer como descobrir as chances de uma turma do ensino fundamental nos EUA ter cinco crianças com o mesmo nome? (Por simplicidade, por "mesmo nome", quero dizer a mesma ortografia, e por "turma escolar", quero dizer que todas as crianças nasceram no mesmo ano.) Não estou especificando um tamanho de turma, mas definitivamente deve ser maior que 4 . :-)
fonte
Respostas:
Todos os dados podem ser encontrados aqui . Cada valor na tabela representa a probabilidade de que, dada uma amostra de 25 pessoas desse local e ano de nascimento, 5 delas compartilhem um nome.
Método : usei o PDF binomial em cada nome para encontrar a probabilidade de qualquer classe de 25 pessoas ter 5 pessoas que compartilham um nome:
Por exemplo, se houver um total de 4.000.000 de crianças e 21.393 de Emily, a probabilidade de haver 5 Emily em qualquer classe com 25 alunos é Binomial (25, 5, 0,0053) = 0,0000002. A soma de todos os nomes não fornece uma resposta exata, porque, pelo Princípio de Inclusão / Exclusão , também devemos levar em conta a possibilidade de ter vários grupos de 5 pessoas que compartilham nomes. No entanto, como essas probabilidades são quase zero para todos os efeitos práticos, presumi que fossem desprezíveis e, portanto, .P( ⋃ AEu) ≈ Σ P( AEu)
Atualização: Como muitas pessoas apontaram, há uma variação considerável ao longo do tempo e entre os estados. Por isso, executei o mesmo programa, STATE BY STATE, e com o tempo. Aqui estão os resultados (a probabilidade em todo o país é vermelha, os estados individuais são pretos):
Curiosamente, Vermont (meu estado natal) tem sido consistentemente um dos lugares mais prováveis para que isso ocorra nas últimas décadas.
fonte
veja o seguinte script Python para Python2.
A resposta é inspirada na resposta de David C.
Minha resposta final seria: a probabilidade de encontrar pelo menos cinco Jacobs em uma classe, com Jacob sendo o nome mais provável de acordo com os dados de https://www.ssa.gov/oact/babynames/limits.html "Dados nacionais "a partir de 2006.
A probabilidade é calculada de acordo com uma distribuição binomial, sendo Jacob-Probability a probabilidade de sucesso.
Máx. probabilidade de pelo menos cinco crianças com o mesmo nome em 25: 4.7e-07 para o nome Jacob
Máx. probabilidade de pelo menos cinco crianças com o mesmo nome em 50: 1.6e-05 para o nome Jacob, é claro.
Máx. probabilidade de pelo menos cinco crianças com o mesmo nome em 100: 0.00045 para o nome Jacob, é claro.
Por um fator de 10, mesmo resultado que os de David C. Obrigado. (Minha resposta não soma todos os nomes, deve ser discutida)
fonte