Eu tenho um grande conjunto de dados (2 milhões de entradas) de pessoas, mas muitas pessoas têm várias entradas no banco de dados com informações de identificação ligeiramente (ou significativamente) diferentes. Por exemplo, eu posso ter J. Doe e John Doe, ou eu posso ter John Doe com um endereço de email de acompanhamento e John Doe sem um endereço de email de acompanhamento.

Eu estive analisando diferentes algoritmos de cluster, mas nada parece adequado ao que estou fazendo, que é agregar as entradas com base em regras como as seguintes:

adivinhe o nome e o sobrenome com base em se um dos nomes está escrito em todas as maiúsculas
agregue "J. Doe" e "J. Doe" se os endereços de email corresponderem
agregue "J. Doe" em "John Doe" se nenhuma outra pessoa tiver o primeiro nome começando com "J" e o sobrenome "Doe"

Com um conjunto de dados menor, isso seria uma tarefa relativamente simples, apenas com algumas regras simples, mas com o número de entradas que tenho, as tarefas de agregação podem ficar muito lentas e a lógica fica bastante complicada. Minha solução atual (baseada no uso da função de pesquisa de texto completo no meu banco de dados para encontrar entradas semelhantes, adicionando hashes com base nesses resultados e agregando com base em uma mistura de hashes e tipos de ambiguidade) funciona, mas sempre que tento executá-lo ou atualizá-lo, apenas grita que é o tipo de problema que alguém já resolveu. Mas não consegui encontrar uma solução.

Existem algoritmos que farão o que eu quero com base em regras como esta? Ou pacotes ou software específicos que podem ser úteis? Ou estou abordando esse problema completamente errado?

Obrigado!

(Observe, porém, que estou ciente de que existem muitas maneiras diferentes de agregar identidades incorretamente (por exemplo, J. Doe pode significar John Doe ou James Doe); portanto, não preciso de avisos contra a tentativa de agregar coisas.)

clustering algorithms escada de corda
fonte

Depois de postar esta pergunta, você tentou alguma coisa ou apresentou algum plano? Qual idioma você prefere? Eu tenho algumas idéias em minha mente. O Python dictionaryserá seu melhor amigo para ter uma chave e um valor correspondente no seu caso.

DCIM

Isso é chamado en.wikipedia.org/wiki/Record_linkage

Emre

Agrupar será a coisa errada aqui. Pela análise estatística, você mesclará "Jan" e "Jane" porque diferem em apenas uma letra. Portanto, no máximo, eles devem ser usados de forma interativa, como no OpenRefine. Procure uma pesquisa de vínculo recorde.

Saiu - Anony-Mousse

Ainda não resolvi com êxito meu problema de ligação de registros, mas queria compartilhar algumas das coisas que encontrei no processo, caso sejam úteis para outras pessoas. Este é um trabalho em andamento baseado aqui no GitHub.

Gravar recursos de ligação

(também conhecido como desduplicação, correspondência de dados, resolução da entidade)

fundo

Documentos

Páginas da Wikipedia sobre vinculação de registros e desduplicação de dados
Slideshows de visão geral: //www.umiacs.umd.edu/~getoor/Tutorials/ER_VLDB2012.pdf
A explicação de [Dedupe] sobre como o software funciona: https://dedupe.io/developers/library/en/latest/How-it-works.html

Palestras

Peter Christen, palestras Record Linkage na ADRC-Escócia: 1 2 3 4 (2015)
Mike Mull, A arte e a ciência da correspondência de dados: https://www.youtube.com/watch?v=Y-nYEOgq3YE (2015)
Rhydwyn Mcguire, participe da vida real: https://www.youtube.com/watch?v=cEcVIjyHfiQ (2013)
Andrew Rowe, Desduplicação de Big Data e Correspondência de Dados usando Python: https://www.youtube.com/watch?v=Z6mlvrYEYnk (2013)

Livros

Peter Christen, correspondência de dados : http://www.springer.com/us/book/9783642311635
Thomas N. Herzog, Fritz J. Scheuren e William E. Winkler, Qualidade dos dados e técnicas de ligação de registros : http://www.springer.com/us/book/9780387695020

Software grátis

(última atualização, estrelas do github em novembro de 2017)

Software e soluções comerciais

Data Ladder DataMatch: https://dataladder.com/
Dedupe: https://dedupe.io/ (front-end do freemium para a biblioteca Dedupe Python)
LinkageWiz: http://www.linkagewiz.net/
WinPure Clean and Match: http://www.winpure.com/cleanmatch.html
Reifier: http://nubetech.co/

Para SAS

(gratuito, mas requer SAS) The Link King: http://www.the-link-king.com/

Limpeza de Dados

Analisadores de nome

Pitão

probablepeople: https://github.com/datamade/probablepeople (2017, 204)
Analisador de nomes: https://github.com/derek73/python-nameparser (2017, 232)

Javascript

nome completo da análise: https://github.com/dschnelldavis/parse-full-name (2017, 18)

Papéis

Pesquisa de vinculação de dados do Bureau do Censo dos EUA: https://www.census.gov/srd/csrm/RecordLinkage.html
Funções de similaridade aprendidas e sua aplicação para registrar ligação e cluster ( via )
[ https://www.microsoft.com/pt-br/research/publication/improving-entity-resolution-with-global-constraints/ ( via )
https://arxiv.org/abs/1312.4645 ( via )
http://people.cs.umass.edu/~mwick/MikeWeb/Publications_files/wick09entity.pdf ( via )
http://homes.cs.washington.edu/~pedrod/papers/mrdm04.pdf ( via )
https://www.researchgate.net/publication/318874102_Clink_-_A_Novel_Record_Linkage_Methodology_based_on_Graph_Interactions

Organizações

Departamento do Censo dos EUA - Centro de Pesquisa Estatística e Metodologia - Link Record: https://www.census.gov/srd/csrm/RecordLinkage.html
Estrutura de resolução da entidade de Stanford: http://infolab.stanford.edu/serf/
Grupo de Mineração e Correspondência de Dados da ANU https://dmm.anu.edu.au/ https://web.archive.org/web/20160515215747/datamining.anu.edu.au/projects/linkage.html (link Archive.org )

Diversos

DuDe (estrutura para comparar resultados de vinculação de registros): https://hpi.de/naumann/projects/data-quality-and-cleansing/dude-duplicate-detection.html
Conjuntos de dados a serem usados para avaliar o software de redução de redundância: https://hpi.de/naumann/projects/repeatability/datasets.html
https://www2.vrdc.cornell.edu/news/3/20050420-Record%20Linkage%20Software.pdf

escada de corda
fonte

Algoritmos para agregar identidades duplicadas com base em dados não numéricos?

Respostas: