Estou interessado em vincular registros em dois conjuntos de dados por nome, sobrenome e ano de nascimento. Isso pode ser possível com o algoritmo EM? Em caso afirmativo, como?
Considere o seguinte registro no 1º como exemplo: Carl McCarthy, 1967. Pesquisarei todos os registros no segundo conjunto de dados e atribuirei uma distância jaro-winkler entre o 1º nome e Carl e uma distância jaro-winkler entre o sobrenome e McCarthy. Essas distâncias são probabilísticas, assim como a distância entre os anos de nascimento. Combinamos essas 3 probabilidades (multiplique? Média?) Em 1.
Agora vem a parte da regra de decisão. Vamos classificar todas as probabilidades do mais alto para o mais baixo. Primeiro, queremos P (o primeiro hit corresponde)> = threshold. Segundo, também queremos P (primeiro acerto é correspondência) / P (segundo acerto é correspondência)> = limite se P (segundo acerto é correspondência) existir. Terceiro, queremos que o primeiro hit neste segundo conjunto de dados corresponda a não mais de uma pessoa no 1º conjunto de dados com Carl McCarthy, 1967.
Como esses limites podem ser determinados?
Eu prefiro abordagens em Stata e / ou Perl.
Veja, por exemplo:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Embora com isso, eu ainda não sigo completamente o porquê ou como, e quais são as entradas e saídas, bem como as suposições e quão restritivas são).
fonte
Respostas:
Absolutamente, o algoritmo EM foi usado para ligação probabilística. Existem muitos artigos sobre o assunto, e os seguintes por Winkler podem ser úteis em relação aos detalhes teóricos:
http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf
Também há um software de vinculação de dados desenvolvido por Kevin Campbell já disponível aqui:
http://the-link-king.com/
O software pode ser baixado gratuitamente e Kevin Campbell oferece suporte a uma taxa. O código está escrito em SAS, portanto, você precisará do pacote SAS básico.
fonte
Existe um software RELAIS que registra a ligação com:
Há mais documentação disponível sobre o vínculo de registros disponível no projeto ESSnet Data Integration .
fonte