Existem coisas básicas que você pode fazer com qualquer conjunto de dados:
- Validar valores (tolerância do comprimento da string, tipo de dados, máscaras de formatação, presença de campo obrigatória etc.)
- Correção do intervalo (esses dados aparentemente corretos estão dentro dos intervalos de valores esperados)
- Processamento preliminar (se eu tentar analisar esses dados, posso executar o básico sem encontrar erros)
- Relatório preliminar (execute um relatório em um conjunto de dados e garanta que ele passe em um teste de sanidade)
- Definindo nulo vs. vazio vs. zero vs. falso para qualquer coluna de dados
- Identificando dados que estão fora do lugar (valores numéricos dramaticamente diferentes de outros valores em um conjunto de dados, valores de sequência que parecem estar com erros de ortografia etc.)
- Eliminar ou corrigir dados obviamente errados
Compreender os dados para identificar erros é um jogo totalmente diferente e muito importante.
Por exemplo, você pode ter uma regra que diz que um número de série deve estar presente em um determinado conjunto de dados e esse número de série deve ser alfanumérico, com um comprimento máximo de 255 e um mínimo de 5.
Observando os dados, você pode encontrar um valor específico de número de série com a mensagem "PLEASE ENTER SERIAL"
É perfeitamente válido, mas errado.
Isso é óbvio, mas digamos que você esteja processando dados de estoque e tenha uma faixa de preço para 1.000 ações abaixo de um dólar. Muita gente não saberia que um preço das ações tão baixo é inválido em certas bolsas e perfeitamente válido em outras. Você precisa conhecer seus dados para entender se o que está vendo é problemático ou não.
No mundo real, você nem sempre tem o luxo de entender seus dados intimamente.
A maneira como evito problemas é aproveitando as pessoas ao meu redor. Para conjuntos de dados pequenos, posso pedir a alguém para revisar os dados em sua totalidade. Para os grandes, extrair um conjunto de amostras aleatórias e solicitar que alguém faça uma verificação de sanidade dos dados é mais apropriado.
Além disso, é imperativo questionar a fonte dos dados e até que ponto essa fonte de dados pode ser confiável. Costumo ter várias fontes de dados conflitantes e criamos regras para determinar a "fonte da verdade". Às vezes, um conjunto de dados possui ótimos dados em um determinado aspecto, mas outros são mais fortes em outras áreas.
Os dados inseridos manualmente geralmente são os mais céticos, mas em alguns casos são mais fortes do que qualquer coisa que possa ser adquirida através da automação.