Alguém está ciente de um bom software de anonimização de dados? Ou talvez um pacote para R que faça o anonimato dos dados? Obviamente, não esperamos anonimização invencível - só quero dificultar.
Aviso: cuidado com o fato de que pode ser muito difícil anonimizar dados de uma maneira que impeça a re-identificação (desanonimização), sem perder muito do valor dos dados. Não é uma situação em que você pode simplesmente jogar um pedaço de software sem pensar. Proteger o anonimato das pessoas requer uma reflexão cuidadosa. Veja, por exemplo, este artigo para uma exposição mais cuidadosa de por que isso não é trivial.
Um exemplo de uma história de advertência é o desafio da Netflix, em que um conjunto de dados aparentemente anonimizado estava realmente ligado à identidade dos usuários da Netflix - ou à liberação de registros de pesquisa anônimos da AOL, muitos dos quais (pesquisadores descobriram) ainda poderiam estar ligados a indivíduos através de análises mais sofisticadas. Outro exemplo é de Massachusetts, onde uma comissão de seguro de saúde divulgou dados de todos os funcionários do estado, após anonimá-lo, removendo nomes, endereços, SSNs, etc. No entanto, um pesquisador de privacidade descobriu que ainda era possível re-identificar indivíduose, como demonstração, mostrou como identificar os registros de saúde do governador. Mais tarde, ela mostrou, por exemplo, que a maioria das pessoas pode ser identificada exclusivamente a partir de seu CEP (ou setor censitário), data de nascimento e sexo. Essas eram histórias de pessoas diligentemente anonimizando dados; eles pensaram que haviam feito um bom trabalho de anonimato e simplesmente não perceberam o quão complicado é esse problema. Essas histórias de advertência devem dar uma pausa.
Por esses motivos, desencorajo você a tentar anonimizar seu conjunto de dados por conta própria, se você não tiver experiência anterior nessa área.
Importante: as técnicas necessárias para anonimizar dados provavelmente dependerão muito do tipo de dados que você possui e do domínio do aplicativo em que está trabalhando. Infelizmente, você não forneceu essas informações. Como resultado, é quase impossível fornecer bons conselhos sobre como anonimizar seu conjunto de dados.
Imagino que possa ser tentador ver esta resposta como inútil, porque, em vez de dizer "seja feliz, não se preocupe, basta jogar este software mágico nos seus dados e você não precisa pensar", estou dizendo " espere, isso é mais complicado do que parece à primeira vista, tenha cuidado ". Sei que essa mensagem pode não ser muito popular, mas acho que é uma mensagem que as pessoas precisam ouvir.
Uma abordagem seria usar filtros Bloom. Consulte o site do projeto SAFELINK para obter programas em Java e Python. O método explicativo em papel está aqui .
Há também uma abordagem interessante para a anonimização de seqüências de caracteres no contexto de ligação de registros usando n-gramas desenvolvidos pelo ANU Data Mining Group . O artigo com a descrição e o exemplo de código Python está disponível aqui .
Respostas:
O Cornell Anonymization Tookit é de código aberto. Sua página de pesquisa possui links para publicações associadas.
fonte
Aviso: cuidado com o fato de que pode ser muito difícil anonimizar dados de uma maneira que impeça a re-identificação (desanonimização), sem perder muito do valor dos dados. Não é uma situação em que você pode simplesmente jogar um pedaço de software sem pensar. Proteger o anonimato das pessoas requer uma reflexão cuidadosa. Veja, por exemplo, este artigo para uma exposição mais cuidadosa de por que isso não é trivial.
Um exemplo de uma história de advertência é o desafio da Netflix, em que um conjunto de dados aparentemente anonimizado estava realmente ligado à identidade dos usuários da Netflix - ou à liberação de registros de pesquisa anônimos da AOL, muitos dos quais (pesquisadores descobriram) ainda poderiam estar ligados a indivíduos através de análises mais sofisticadas. Outro exemplo é de Massachusetts, onde uma comissão de seguro de saúde divulgou dados de todos os funcionários do estado, após anonimá-lo, removendo nomes, endereços, SSNs, etc. No entanto, um pesquisador de privacidade descobriu que ainda era possível re-identificar indivíduose, como demonstração, mostrou como identificar os registros de saúde do governador. Mais tarde, ela mostrou, por exemplo, que a maioria das pessoas pode ser identificada exclusivamente a partir de seu CEP (ou setor censitário), data de nascimento e sexo. Essas eram histórias de pessoas diligentemente anonimizando dados; eles pensaram que haviam feito um bom trabalho de anonimato e simplesmente não perceberam o quão complicado é esse problema. Essas histórias de advertência devem dar uma pausa.
Por esses motivos, desencorajo você a tentar anonimizar seu conjunto de dados por conta própria, se você não tiver experiência anterior nessa área.
Importante: as técnicas necessárias para anonimizar dados provavelmente dependerão muito do tipo de dados que você possui e do domínio do aplicativo em que está trabalhando. Infelizmente, você não forneceu essas informações. Como resultado, é quase impossível fornecer bons conselhos sobre como anonimizar seu conjunto de dados.
Imagino que possa ser tentador ver esta resposta como inútil, porque, em vez de dizer "seja feliz, não se preocupe, basta jogar este software mágico nos seus dados e você não precisa pensar", estou dizendo " espere, isso é mais complicado do que parece à primeira vista, tenha cuidado ". Sei que essa mensagem pode não ser muito popular, mas acho que é uma mensagem que as pessoas precisam ouvir.
fonte
Dê uma olhada no pacote sdcMicro no CRAN. Um dos autores escreveu um artigo descrevendo além da vinheta incluída.
fonte
Uma abordagem seria usar filtros Bloom. Consulte o site do projeto SAFELINK para obter programas em Java e Python. O método explicativo em papel está aqui .
Há também uma abordagem interessante para a anonimização de seqüências de caracteres no contexto de ligação de registros usando n-gramas desenvolvidos pelo ANU Data Mining Group . O artigo com a descrição e o exemplo de código Python está disponível aqui .
fonte