Probabilidade de cinco filhos da mesma classe terem o mesmo nome

10

Nos fóruns de nomes de bebês, os possíveis pais repetem uma versão do Medo de Jennifer o tempo todo: "Não quero que meu filho seja um dos cinco da turma com o nome dele". O fato é que nenhum nome chega nem perto desse tipo de popularidade e, mesmo no auge da moda de Jennifer, você não conseguiu cinco deles em uma classe. Eu gostaria de algum tipo de resposta para esses pais sobre o quão improvável seria essa coincidência de repetição de nomes.

Usando os extensos dados de nomes de bebês da Social Security Administration ( https://www.ssa.gov/oact/babynames/limits.html ), alguém pode me dizer como descobrir as chances de uma turma do ensino fundamental nos EUA ter cinco crianças com o mesmo nome? (Por simplicidade, por "mesmo nome", quero dizer a mesma ortografia, e por "turma escolar", quero dizer que todas as crianças nasceram no mesmo ano.) Não estou especificando um tamanho de turma, mas definitivamente deve ser maior que 4 . :-)

JPmiaou
fonte
11
Publicações sobre nomes de bebês são um tema recorrente no blog de Andrew Gelman. Em nenhum dos posts que encontrei no site dele, ele discute sua pergunta específica. Ele cria um link para um "blog de nomes de bebês", onde você pode ter mais sorte em obter uma resposta. andrewgelman.com/2005/09/07/baby_name_blog
Mike Hunter
Acho que você pode reunir algo usando a distribuição multinomial com probabilidades de sucesso, digamos, os primeiros vinte nomes extraídos de dados do censo como este .
Antoni Parellada
A SSA fornece dados sobre o número de crianças nascidas com um nome? Só estou encontrando informações sobre classificações que obviamente descartam algumas informações úteis.
Sycorax diz Restabelecer Monica em
6
@AntoniParellada Acho que a realidade da situação é ainda mais sutil: como o sistema escolar dos EUA é altamente segregado por renda e raça, acho que as estatísticas nacionais terão uma fraca correspondência com as salas de aula reais.
Sycorax diz Restabelecer Monica em
3
Quando eu era aluno de uma escola (pequena) primária, tínhamos três alunos de uma turma muito pequena (acho que meninos e meninas juntos tinham apenas 14 anos). Um ano combinamos com o ano anterior para fazer uma aula em tamanho real ... e conseguimos um quarto John. Agora John era bastante comum, mas não tão comum. (Em termos da edição original, três seriam quase tão irritantes quanto cinco). A chance de um nome específico ser duplicado muitas vezes seria muito baixa, mas a chance de um nome aparecer várias vezes será muito maior.
Glen_b -Reinstala Monica

Respostas:

9

Todos os dados podem ser encontrados aqui . Cada valor na tabela representa a probabilidade de que, dada uma amostra de 25 pessoas desse local e ano de nascimento, 5 delas compartilhem um nome.

Método : usei o PDF binomial em cada nome para encontrar a probabilidade de qualquer classe de 25 pessoas ter 5 pessoas que compartilham um nome:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

Pn(5+ kids share name)= namesk=5n(nk)pik(1pi)nk

Por exemplo, se houver um total de 4.000.000 de crianças e 21.393 de Emily, a probabilidade de haver 5 Emily em qualquer classe com 25 alunos é Binomial (25, 5, 0,0053) = 0,0000002. A soma de todos os nomes não fornece uma resposta exata, porque, pelo Princípio de Inclusão / Exclusão , também devemos levar em conta a possibilidade de ter vários grupos de 5 pessoas que compartilham nomes. No entanto, como essas probabilidades são quase zero para todos os efeitos práticos, presumi que fossem desprezíveis e, portanto, .P(Ai)P(Ai)

Atualização: Como muitas pessoas apontaram, há uma variação considerável ao longo do tempo e entre os estados. Por isso, executei o mesmo programa, STATE BY STATE, e com o tempo. Aqui estão os resultados (a probabilidade em todo o país é vermelha, os estados individuais são pretos):

insira a descrição da imagem aqui

Curiosamente, Vermont (meu estado natal) tem sido consistentemente um dos lugares mais prováveis ​​para que isso ocorra nas últimas décadas.

David C
fonte
3
Alguma chance de você explicar como conseguiu esses números? Você não precisa fazer muita besteira - eu tenho um diploma de bacharel em matemática e sei onde procurar as coisas - mas eu realmente gostaria de saber o tipo de raciocínio que realmente leva a probabilidades (em vez disso, de suspiros assustados).
JPMiaou 4/16
11
Isso pressupõe que os nomes sejam dados aleatoriamente com as mesmas probabilidades , o que simplesmente não é verdade . Também a experiência da vida real mostra que há muito mais aulas com crianças com os mesmos nomes do que 1 em 200!
Tim
4
Recebo resultados ligeiramente diferentes, mas eles estão próximos. Não vale a pena discutir, no entanto, porque a variação geográfica e temporal nos resultados é enorme. A resposta mudou em duas ordens de magnitude desde 1910 e varia em uma ordem de magnitude entre os estados. Como quase nenhuma classe do ensino fundamental é extraída de todo o país, o modelo de seleção aleatória da lista de nomes nacionais é inadequado.
whuber
2
(1) Veja os outros anos no arquivo nacional que você baixou. (2) Veja os arquivos de estado disponíveis no mesmo site.
whuber
2
Sim, o gráfico de probabilidades ao longo do tempo é dramático: iniciou um declínio acentuado em 1980. Mas a variação do estado é realmente muito grande, como seria de esperar: os nomes variam geograficamente e se agrupam fortemente por etnia, renda e outros fatores demográficos. (+1 para sua investigação extensa sobre a variação de estado e tempo, BTW.)
whuber
0

veja o seguinte script Python para Python2.

A resposta é inspirada na resposta de David C.

Minha resposta final seria: a probabilidade de encontrar pelo menos cinco Jacobs em uma classe, com Jacob sendo o nome mais provável de acordo com os dados de https://www.ssa.gov/oact/babynames/limits.html "Dados nacionais "a partir de 2006.

A probabilidade é calculada de acordo com uma distribuição binomial, sendo Jacob-Probability a probabilidade de sucesso.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Máx. probabilidade de pelo menos cinco crianças com o mesmo nome em 25: 4.7e-07 para o nome Jacob

Máx. probabilidade de pelo menos cinco crianças com o mesmo nome em 50: 1.6e-05 para o nome Jacob, é claro.

Máx. probabilidade de pelo menos cinco crianças com o mesmo nome em 100: 0.00045 para o nome Jacob, é claro.

Por um fator de 10, mesmo resultado que os de David C. Obrigado. (Minha resposta não soma todos os nomes, deve ser discutida)

Feinmann
fonte
Essa resposta não parece abordar a questão da chance de algum nome aparecer cinco ou mais vezes na sala de aula.
whuber
11
@feinmann Eu acredito que assumir a soma de todos os nomes é apropriado porque a probabilidade de ter dois ou mais conjuntos de 5 pessoas com o mesmo nome em uma classe é quase zero e é insignificante para todos os fins práticos. Isto é, de acordo com a inclusão / exclusão Princípio , se desconsiderarmos essa possibilidade, entãoP(Ai)P(Ai)
David C
2
Não, você não respondeu à pergunta como a formulou. A chance de que algum nome aparecerá cinco ou mais vezes é muito maior do que a chance máximo que um determinado nome aparecerá cinco ou mais vezes.
whuber
3
Como o @whuber aponta, "5 Jacobs" é um argumento mais fraco que "5 de algum nome", mas pode ser útil nas discussões de nomes de bebês de qualquer maneira: "Aqui está a probabilidade de cinco crianças com o nome mais popular. Você não é usando o nome mais popular, então sua probabilidade é ainda menor ".
JPMiaou
2
Não é exatamente , porque as possibilidades não são mutuamente exclusivas: você pode ter 5 ou mais Thomases e 5 ou mais Richards ( e talvez até 5 ou mais Henrys) em uma única classe. Portanto, é um limite superior. O @DavidC argumenta em um comentário aqui que tais eventos têm probabilidade insignificante.
Scortchi - Restabelece Monica