Eu ficaria muito surpreso se houvesse uma ferramenta genérica para isso - como "saber" o que é dados confidenciais e o que não é? Por exemplo, seria necessário examinar todos os seus dados e reconhecer todos os formatos possíveis de número de cartão de crédito, número de telefone, código postal, endereço de e-mail e quaisquer outros dados considerados sensíveis. Também seria preciso ser esperto em relação ao seu esquema - por exemplo, se ele reescrever todos os endereços de email do cliente para "[email protected]" - ou qualquer parte do seu banco de dados, aplicativos e outras ferramentas pressupõem que o endereço de email do cliente (ou SSN ou seja qual for) é único? Ou você tem alguma parte do aplicativo que soma números de cartão de crédito de somas de verificação, que seria interrompida se você redefinir todos eles para 0000 0000 0000 0000? Ou o seu sistema de telefonia pressupõe que um cliente '
Basicamente, configurar qualquer ferramenta para fazer isso será tão ou mais trabalhos do que apenas escrever seu próprio script, usando seu conhecimento do aplicativo. No meu site, simplesmente adotamos a política de que quem adiciona uma coluna com esses dados atualize o script para anonimá-lo ao mesmo tempo, após uma auditoria inicial para encontrar todas essas colunas e escrever a versão 1.
Se o seu banco de dados é pequeno, possui um modelo de dados simples e é bem compreendido pelos DBAs atuais - o script "pode" ser a resposta. No entanto, o esforço (e o custo) de analisar e mascarar manualmente os bancos de dados típicos pode sair do controle rapidamente, à medida que os requisitos mudam, a funcionalidade é adicionada e os desenvolvedores / DBAs vêm e vão.
Embora eu não conheça nenhum produto de máscara de dados de código aberto, existem ofertas comerciais razoavelmente abrangentes, relativamente fáceis de usar e que podem ser surpreendentemente razoáveis em termos de custo. Muitos deles incluem capacidade de descoberta pronta para identificar e classificar dados confidenciais (SSN, cartões de crédito, números de telefone), além de funcionalidade para manter as somas de verificação, formatação de endereço de email, agrupamento de dados, etc., para que os dados mascarados parece e se sente real.
Mas você não precisa aceitar minha palavra (reconhecidamente tendenciosa). Pergunte aos analistas do setor, como Gartner ou Forrester, que têm vários relatórios imparciais disponíveis sobre máscaras que podem ajudar.
Esperamos que esses comentários o incentivem a considerar a exploração de produtos comerciais, bem como o desenvolvimento interno de scripts. No final das contas, o mais importante é proteger os dados confidenciais que muitos de nós veem dia após dia que realmente não precisamos ver para realizar nosso trabalho - colocando a nós e as pessoas cujos dados pessoais dados que mantemos em risco.
Kevin Hillier, especialista sênior em integração, Camouflage Software Inc.
fonte
Nunca vi esse item, mas, tendo trabalhado com alguns conjuntos de dados confidenciais no meu tempo, a principal coisa que precisa ser embaralhada é a identidade das pessoas ou as informações de identificação pessoal. Isso deve aparecer apenas em alguns lugares do banco de dados.
Sua operação de mascaramento deve reter as propriedades estatísticas e os relacionamentos dos dados e provavelmente precisa reter os códigos de referência reais (ou pelo menos algum tipo de mecanismo de tradução controlado) para que você possa reconciliá-los com os dados reais.
É possível obter esse tipo de coisa, obtendo uma lista distinta dos nomes nos campos e substituindo-a por algo como FirstNameXXXX (onde XXXX é um número de sequência, um para cada valor distinto). Números de cartão de crédito e informações semelhantes que poderiam ser usadas para roubo de identidade provavelmente não são possíveis em um ambiente de desenvolvimento, mas você só precisa de números reais se estiver testando sistemas de processamento de pagamentos - normalmente o fornecedor fornecerá códigos especiais para contas falsas.
Não é particularmente difícil escrever procedimentos de anonimização desse tipo, mas você precisará concordar exatamente o que precisa ser anonimizado com a empresa. Se necessário, passe pelo campo do banco de dados por campo. Pedir sim / não fornecerá falsos positivos que você não deseja. Peça ao representante comercial que explique o motivo ou as consequências ou implicações regulatórias de não anonimizar dados específicos.
fonte
Eu tive a mesma tarefa há algumas semanas. avaliamos alguns sistemas de software, mas a maioria deles é apenas para exatamente um tipo de banco de dados, por exemplo, oracle e eles geralmente são muito complicados de usar ... portanto, não é a coisa mais agradável para avaliar isso. Demorou semanas.
Decidimos comprar a versão profissional do pacote de mascaramento de dados, pois era a mais fácil de usar. Também possui possibilidades interessantes para mascarar dados, por exemplo, você pode alterar os endereços de e-mail para reais, por exemplo ... @ siemens.com para [email protected].
Você pode experimentá-lo gratuitamente por cerca de 500 (?) Registros, tanto quanto me lembro.
Aqui está o link http://www.data-masking-tool.com/
fonte
Minha maneira de fazer isso:
column to be masked
))fonte
Eu declarei esse caminho pela primeira vez há vários anos e, desde então, construí uma consultoria baseada nessa prática.
Estou assumindo que o objetivo é criar dados de teste para uso em ambientes de teste em que as pessoas que acessam os dados não têm direitos para visualizar as informações de produção.
A primeira coisa a estabelecer é exatamente quais elementos de dados você precisa mascarar e, para isso, é melhor começar com uma ferramenta de descoberta de dados como o Schema Spy (código-fonte aberto) e você precisará do driver jdbc relevante para esta tarefa, mas é uma etapa muito útil no processo.
O Talend Open Studio é uma das melhores ferramentas que usei nos últimos anos para executar algumas das funções ETL e você também poderá fazer algumas práticas básicas de mascaramento, substituindo valores por um aleatório ou. Pesquise / substitua - para manter a consistência - usando o componente de mapa.
Mas se você está procurando uma ferramenta de mascaramento de dados real, não encontrei uma ferramenta de código aberto adequada. Se você tiver um orçamento muito moderado para as ferramentas, sugiro o Data Masker, mas você precisará importar e exportar através do MS SQL ou Oracle, pois ele se conecta somente através desses protocolos.
Confira http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset para obter informações sobre mascaramento de dados, metodologia de mascaramento de dados, descoberta de dados e dados de teste gestão. Há também um blog útil em http://www.dataobfuscation.com.au
fonte
Existe uma ferramenta disponível no Mercado da Informatica, chamada Informatica ILM (TDM). Isso usa o PowerCenter como backone para ETL e mascara dados com diferentes opções de máscara disponíveis. Embora você precise de um analista de dados ou de uma PME que possa entender como os dados devem ser mascarados. A ferramenta em si não fornece informações sobre quais campos devem ser mascarados; no entanto, existe um algoritmo, procedimento ou processo interno para identificar campos de dados sensíveis, como Nome, colunas de ID com número, cartão de crédito, número de SSN, número de conta etc.
fonte
Este ano, tenho a oportunidade de trabalhar com o IBM Optim que afirma fazer o que é solicitado. Não é gratuito, mas funciona bem.
fonte
O que eu mais gosto é o IRI FieldShield ( https://www.iri.com/products/fieldshield ) em termos de versatilidade (a maioria das funções de mascaramento de dados), velocidade (mecanismo CoSort para movimentação de dados internos) e ergonomia (trabalhos simples em 4GL suportado em sua GUI Eclipse com toneladas de conexões de banco de dados e arquivo). Em termos de preço, trata-se de metade da IBM e da Informatica, embora também esteja disponível em um conjunto maior de integração de dados para transformação, migração e BI de "grandes" dados. Portanto, também não é gratuito, mas usa código-fonte aberto (o IDE e pode usar OpenSSL e GPG) e os scripts são executados no Windows, Linux e outros tipos de Unix.
fonte