Um nome: primeiro, possivelmente meio, e sobrenome.
Estou curioso para saber quantas informações você pode extrair de um nome, usando conjuntos de dados disponíveis ao público. Eu sei que você pode obter o seguinte com qualquer probabilidade entre baixa e alta (dependendo da entrada) usando os dados do censo dos EUA: 1) Sexo. 2) Corrida.
O Facebook, por exemplo, usou exatamente isso para descobrir, com um nível decente de precisão, a distribuição racial dos usuários do site (https://www.facebook.com/note.php?note_id=205925658858).
O que mais pode ser extraído? Não estou procurando nada específico, essa é uma pergunta muito aberta para amenizar minha curiosidade.
Meus exemplos são específicos dos EUA, portanto, assumiremos que o nome é o nome de alguém localizado nos EUA; mas, se alguém souber de conjuntos de dados disponíveis publicamente para outros países, também estou mais do que aberto a eles.
Não tenho certeza se este é o lugar certo para isso, se não for, eu apreciaria se alguém pudesse me indicar um lugar mais apropriado.
Espero que essa seja uma pergunta interessante e que este seja o local apropriado!
Respostas:
Esta não é uma resposta séria, mas acabei de me lembrar de algo de um livro que li um ano atrás. Há um capítulo em Freakonomics dedicado ao que você pode dizer sobre uma pessoa a partir do nome. O capítulo é baseado no trabalho de pesquisa do autor As causas e consequências de nomes distintamente pretos
Acho que encontrei um trecho ou resumo deste artigo
fonte
Desde o primeiro nome, preveja região, idade, status de imigrante de primeira geração. A partir do sobrenome, você pode prever a localização geográfica do nome de usuário original. Para obter o nome completo, você pode prever o status social e econômico (Thurston Howell III).
fonte
Apenas para adicionar outras sugestões aqui, uma das maiores fontes de dados da família é a grande quantidade de sites genealógicos por aí. Acho que a maioria das pessoas ocidentais provavelmente está listada por algum membro da família, distante ou não, em alguns deles e essa inclusão vem com uma árvore genealógica geralmente abrangente anexada, completa com locais, detalhes do nascimento, etc. Muito informativo.
Se você cruzar esses dados com gráficos de amigos no Facebook, como as pessoas tendem a adicionar irmãos / primos (e pais / filhos de vez em quando), use os dados de localização com papéis e diretórios eleitorais, geralmente é possível identificar pessoas mesmo com nomes comuns, e obtenha uma quantidade surpreendentemente grande de dados sobre eles.
fonte
O último capítulo de Freakonomics (2005, Steven D. Levitt e Stephen J. Dubner) tem uma discussão fascinante sobre nomes, principalmente no que se refere ao status socioeconômico e à raça.
Eles têm uma lista de nomes que podem ou não se correlacionar bem com a análise de sobrenomes do FB. Eles também descrevem como a escolha do nome está mudando diacronicamente (através do tempo).
Quem sabe - o nome da seleção dos pais pode ser mais preciso do que o que as pessoas relatam no censo.
fonte
Você tem muitas boas sugestões acima, então vou mencionar uma anedota interessante. Um estudante de verão (agora um proeminente cientista da computação) em um laboratório de pesquisa corporativo (que permanecerá sem nome) examinou os dados da lista telefônica on-line da empresa e construiu um modelo preditivo de nota de pagamento usando caracteres n-gramas dos nomes. O preditor mais forte foi que ez_ indicou um salário mais baixo, uma descoberta que imagino que ele não foi incentivado a falar sobre ...
fonte
Você provavelmente poderia descobrir:
O que significa que você nunca deve usar nada da lista acima para suas senhas, perguntas secretas etc.
fonte
Darden e Robinson (1976) tentaram encontrar uma estrutura lingüística que orientasse as associações de pessoas sobre o primeiro nome dos homens. Eles pediram a dois grupos de sujeitos (estudantes de sociologia e oficiais da marinha) que avaliassem um conjunto de nomes americanos comuns ao longo de diferenciais semânticos, como macio-resistente, nobre-comum e urbano-rural. Eles também pediram julgamentos de similaridade entre os diferentes pares de nomes e, como validação, correlacionaram as médias dos diferenciais semânticos com as dimensões encontradas, tanto nas soluções em três como nas quatro soluções D, usando o procedimento TORSCA MDS.
Os autores descobriram que sua solução 3D correspondia aproximadamente ao trio clássico de ativação, avaliação e potência de Osgood. Em quatro dimensões, o espaço ajustou os dados um pouco melhor, e aqui eles interpretaram a estrutura como dependente de "caráter", "maturidade", "sociabilidade" e "virilidade", embora essas escalas não pareçam tão bem definidas quanto as autores sugeriram. Uma descoberta surpreendente que veio do estudo foi que, pelo menos para essas duas pequenas amostras (n = 83 e 21), nenhuma dimensão apareceu que correspondesse à distinção entre nome e apelido.
Darden, DK e Robinson, IE (1976). Escala multidimensional do primeiro nome dos homens: uma abordagem sociolinguística. Sociometry, 39 , 4, 422-431.
fonte
A quantidade de informações que pode ser encontrada varia muito, de apenas raça e sexo, a todos os tipos de informações pessoais. Sua melhor aposta para obter as informações seria sites de redes sociais como o Facebook, pois geralmente fornecem mais informações do que os bancos de dados Cencus.
fonte
Você pode obter uma grande variedade de informações, dependendo das fontes que você usa. Os dados do censo são óbvios. Você também pode obter informações do Facebook, MySpace e outros sites de redes sociais. Você também pode procurar nos arquivos públicos de notícias por menções de seus nomes. Talvez até esses sites de propriedade desconhecidos que alguns estados possuem.
Se você quer um exemplo do mundo real do que pode ser feito, dê uma olhada em pipl.com
fonte
Você pode procurar por diplomas, carteira de motorista, registro policial (é a tradução correta?). Com o facebook, você pode encontrar informações sobre hobbies, esportes, músicas gostadas. Você também pode procurar a proporção de usuários de mídias sociais de outros com um nome determinado. (Eu estaria interessado nestes resultados)
fonte
Não se esqueça dos resultados do Scrabble, por exemplo, função Wolfram Alpha scrabble score
fonte
Se você souber algo sobre a localização do indivíduo, uma fonte de informação são os bancos de dados de registro de eleitores. Muitos dos bancos de dados de registro de eleitores estão disponíveis (mediante pagamento de uma taxa; existem empresas que os compram e fornecem acesso a consultas on-line, mediante pagamento de uma taxa). O banco de dados de registro de eleitores pode ter o endereço e / ou a data de nascimento do indivíduo. Essas informações podem permitir que você procure a pessoa em outros bancos de dados.
No entanto, existem limites sobre o quanto isso ajuda. Isso pode ser útil se você conhecer a cidade ou município em que a pessoa mora e se o nome dela for bastante incomum. Mas se esse é um nome comum ou se você não sabe onde eles moram, provavelmente não vai ajudá-lo.
fonte
uma das maiores fontes de dados acessíveis ao público, incluindo muitos outros atributos úteis, é o escritório de funcionários do condado para registros de propriedade. o issu diz respeito a reunir todos os dados ... alguns estados fornecem um banco de dados central, mas outros não.
fonte
A presença de iniciais do meio já é bastante interessante e pode nos dizer algo sobre etnia. http://blog.scraperwiki.com/2012/06/15/middle-names-in-the-united-states-over-time/
fonte