Quais são os critérios mínimos de correspondência recomendados para uma correspondência confiável baseada em dados demográficos?

30

Ao comparar pacientes com base em dados demográficos, existem recomendações sobre quais campos devem corresponder para que o paciente seja o "Mesmo Paciente"?

Sei que os algoritmos serão diferentes para diferentes implementações, só estou curioso para saber se existem práticas recomendadas ou recomendações sobre esse processo.

First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip

etc?

ConcernedOfTunbridgeWells
fonte
4
Provavelmente, a resposta a essa pergunta também pode mudar dependendo do país específico ou mesmo de considerações étnicas e culturais. Por exemplo, o nome de uma pessoa pode não ser um bom identificador de paciente para os aborígines australianos (ou deve ter um "peso" menor no caso deles), pois eles podem mudar de nome com o tempo. Os aborígines australianos que levam o mesmo nome que um falecido o abandonam porque consideram muito ruim levar o mesmo nome de alguém que está morto. Algo semelhante acontece em outras culturas, onde o nome dos mortos é tabu. link
4
Ou outro exemplo de um estudo ainda não publicado: em imigrantes filipinos nos EUA, os dez sobrenomes mais comuns representam cerca de 6% de todas as pessoas. Nos imigrantes vietnamitas, eles representam ~ 60%. Os nomes são um identificador significativamente melhor nos filipinos do que nos vietnamitas. Definitivamente vou postar esse estudo assim que estiver disponível.
Apenas para esclarecer: o objetivo principal é combinar dois conjuntos de registros?
Ao tentar corresponder registros, certifique-se de distinguir entre a força de uma correspondência ("Bob" é muito semelhante a "Bob") versus o número de correspondências possíveis (existem muitos Bobs). Se dois registros tiverem o mesmo nome e não houver outros registros com esse nome , provavelmente será a mesma pessoa, mesmo que os endereços sejam diferentes. Supondo que você tenha um corpus grande, é claro.
Jon de Todos os Negócios

Respostas:

20

este ótimo ensaio (em espanhol, desculpe), escrito por Pablo Pazos, um engenheiro de CS do Uruguai que trabalha com TI em saúde desde 2006 e fez algumas grandes contribuições para o campo, no qual ele descreve um algoritmo para fazer isso.

Você pode executar o artigo através de um tradutor, mas o essencial é que as informações básicas para determinar a identidade de uma pessoa são seus nomes e sobrenomes (de pai e mãe), sexo e data de nascimento. Curiosamente, ele exclui especificamente números de identificação como SSN de seus algoritmos de correspondência de identidade, já que "qualquer tipo de identificador NÃO faz parte de sua identidade" (acho que esse ponto pode ser discutível). Além disso, ele exclui atributos como endereço, números de telefone etc. porque eles não estão realmente relacionados à identidade de alguém, não estão associados a "quem realmente é".

Além disso, ele atribui "pesos" diferentes a cada um dos atributos anteriores, assim:

  • Primeiro nome: 17,5%
  • Nome do meio: 17.5%
  • Sobrenome (pai): 17,5%
  • Sobrenome (mãe): 17,5%
  • Sexo: 10%
  • Dn: 20%

Com as correspondências encontradas em cada um desses atributos, ele descreve uma metodologia para obter um "índice de correspondência de concordância" composto com o qual as comparações entre registros podem ser possíveis. Além disso, são possíveis correspondências "parciais" nos atributos de nome usando algoritmos como a distância de Levenshtein .

Boa leitura, IMO. Desculpe, está em espanhol, mas espero ter conseguido transmitir suas principais idéias.


fonte
2
isso é ótimo, obrigado. +1 também para mencionar distância, já que erros de digitação são bastante comuns, especialmente em comunidades com alta diversidade de antecedentes culturais, como costuma ser o caso na América do Norte. Dito isto, a maioria dos casos em que tenho que executar corresponde ao domínio de valores possíveis é bastante restrita. Portanto, nesses casos, qualquer critério confiável (como números de planos de saúde) que retorne uma única ocorrência no banco de dados será suficiente; se várias entradas forem retornadas, costumo perguntar ao usuário (se disponível) ou filtrar com critérios adicionais.
(... continua) Observe que esses casos se aplicam bem à instalação local de um EMR em uma clínica ou hospital ou de um RIS em um departamento de radio9logy. Nesses casos, o cliente está registrado na clínica ou no hospital ou não. Nos casos de MPI, porém, este é um jogo totalmente novo.
13

Não existe um algoritmo mágico único para a correspondência de pacientes, e duvido que exista.

Para iniciantes, existem variações regionais. Como MMattoli apontou, o que funciona bem em um hospital urbano dos Estados Unidos provavelmente não se encaixará bem em uma clínica rural australiana que trata de aborígines.

Além disso, sites individuais têm visões diferentes sobre tolerância a falhas. Se você correspondesse apenas quando tinha absoluta certeza , obteria muitas partidas perdidas. Isso causa registros duplicados de pacientes, o que cria um conjunto totalmente diferente de problemas. A maioria dos sites estará disposta a se certificar com certeza , mas com que certeza é suficiente? Peça a 10 pessoas e você receberá 12 respostas.

Portanto, o "melhor" algoritmo será configurável, para que seus clientes possam ajustá-lo para atender às suas necessidades.

Ao considerar uma correspondência, diferentes campos oferecem diferentes graus de confiança.

Os identificadores específicos da área de saúde oferecem mais confiança, pois seu objetivo é identificar exclusivamente a pessoa no sistema de saúde. Os hospitais geralmente se esforçam para garantir que eles não sejam duplicados.

Exemplos:

  • ID nacional de saúde (por exemplo, número NHS do Reino Unido)
  • Número do prontuário médico atribuído ao hospital.

Outros identificadores de pacientes também podem oferecer alta confiança, dependendo do sistema. Por exemplo, uma identificação militar é provavelmente muito relevante em um hospital militar.

Exemplos:

  • Identificação militar
  • ID do seguro
  • Número do Seguro Social (nos EUA, o Número do Seguro Social geralmente não é considerado uma correspondência de alta confiança, devido a uma fraude desenfreada no seguro.)

Na ausência de identificadores únicos, é preciso recorrer a informações demográficas. É desaconselhável para corresponder em qualquer um campo, mas o jogo de campo mais demográfica, mais confiante a partida.

As coisas sobre uma pessoa que muitas vezes não mudam são boas para correspondência:

  • Nome
  • Gênero
  • Data de nascimento

Porém, informações ainda mais maleáveis ​​podem ser consideradas na partida para aumentar a confiança:

  • Endereço
  • Número de telefone
  • Endereço de e-mail
Lynn
fonte
3
O SSN também possui algumas restrições muito estritas; por exemplo, no Canadá, é ilegal até pedir, a menos que você seja um empregador ou um banco (talvez um pouco mais, também não sou advogado). Em outros lugares como a China, eles o utilizam para quase tudo, inclusive para comprar passagens de trem durante feriados de alto tráfego.
Mudanças de nome são comuns se você é mulher. E duas pessoas costumam ter o mesmo nome e até moram no mesmo lugar (pai com um filho nomeado após ele, por exemplo).
HLGEM
@HLGEM: Totalmente correto, razão pela qual nenhum campo demográfico deve ser usado para correspondência. Mas quando as pessoas precisam recorrer a isso, os campos mais estáticos (que, no entanto, às vezes mudam) são mais confiáveis ​​do que a alternativa. Isso não os torna bons, no entanto.
Lynn
7

Também vale a pena conferir os sobrenomes anteriores, pois eles costumam mudar.

Andy Judson
fonte
+1 "frequentemente" é um eufemismo. :) Esse pode certamente ser o caso de pacientes que não são identificáveis ​​ou sem nome, recém-nascidos, mal identificados e assim por diante. Os nomes são mais difíceis, ainda mais significativos, em um ambiente com muitas transações.
4

Além das combinações óbvias das três seguintes, apresentadas na sua pergunta

First Name
Last Name
Date of Birth
City
State
ZIP/Pin Code

Eu pensaria em adicionar phone number (Home and/or Cell)à lista. Hoje em dia é bastante comum e todos terão um número único e, mesmo que algumas vezes as pessoas alterem seus números de telefone, os números de telefone mais antigos são lembrados pela maioria das pessoas, portanto podem ser úteis.

Descobrimos que o endereço geralmente sofre várias grafias e várias formas de renderização, especialmente em países como a Índia, onde as pessoas usam um idioma local e os softwares de gerenciamento de pacientes 'ainda' usam o inglês.

Jamess
fonte
3

O gênero nos registros parece freqüentemente derivado do primeiro nome. Vi uma variação crescente de gênero para estrangeiros, quando não podemos derivar o gênero do nome.

Na Alemanha, temos algumas variações adicionais de nomes que contêm o 'Umlaute' como 'äöü', que às vezes é substituído por 'ae oe ue'.

bernd_k
fonte
1

Meu pensamento está na ordem abaixo 1). SSN, Sobrenome e primeiros 5 caracteres do primeiro nome 2). SSN, data de nascimento e primeiros 5 caracteres do primeiro nome 3). SSN, data de nascimento e sobrenome 4). SSN, Sexo, Data de nascimento 5). Sobrenome, primeiros 5 caracteres do primeiro nome, cidade e CEP


fonte
1

Este é um problema muito difícil nos EUA. Os nomes não são únicos e geralmente mudam durante a vida de uma pessoa ou são apresentados de maneira diferente (Rob versus Robert, por exemplo), portanto nunca podem ser usados ​​para identificar o paciente, exceto em conjunto com algumas informações mais confiáveis. O número e o provedor do seguro de saúde mudam com muito mais frequência e podem ser os mesmos para vários membros da família. O SSN é supostamente único, mas há uma fraude em torno dele. O mesmo acontece com o número de liscense do motorista, que é claro que nem todos terão.

Pessoalmente, eu começaria com o número da apólice de seguro e a combinação de data de nascimento e nome, depois ssn e combinação de data de nascimento e nome. Eu verificaria o endereço e o telefone para me dar uma garantia adicional quando combinados, mas não muito peso se não combinassem. Additonally, eu usaria o tipo sanguíneo como fator de exclusão, se for conhecido (e todos sabemos que os vampiros do hospital estarão colhendo amostras de sangue), pois isso não muda. A correspondência de nomes teria que ser uma correspondência difusa devido ao problema de varição de nomes. Geralmente, outras coisas devem procurar uma correspondência exata, primeiro, uma correspondência difusa se a confiança do nome for realmente alta (poderia ter sido um erro de digitação no SSN).

HLGEM
fonte