Perguntas com a marcação «data-cleaning»

16
Limpando dados de formato inconsistente em R?

Costumo lidar com dados confusos da pesquisa, que exigem muita limpeza antes que qualquer estatística possa ser feita. Eu costumava fazer isso "manualmente" no Excel, às vezes usando fórmulas do Excel e, às vezes, verificando as entradas uma a uma. Comecei a executar cada vez mais essas tarefas...

13
Estado da arte em desduplicação

Quais são os métodos de ponta na desduplicação de registro? Às vezes, a desduplicação também é chamada: ligação de registro, resolução de entidade, resolução de identidade, mesclagem / eliminação. Eu sei, por exemplo, sobre CBLOCK [1]. Eu apreciaria se as respostas também incluíssem referências ao...

12
Qual é a melhor maneira de remodelar / reestruturar dados?

Sou assistente de pesquisa de um laboratório (voluntário). Eu e um pequeno grupo fomos encarregados da análise de dados para um conjunto de dados extraídos de um grande estudo. Infelizmente, os dados foram coletados com um aplicativo on-line de algum tipo e não foram programados para gerar os dados...

10
Limpeza automática de dados

Um problema comum é que o ML é de baixa qualidade dos dados: erros nos valores dos recursos, instâncias classificadas incorretamente, etc. Uma maneira de resolver esse problema é passar manualmente pelos dados e verificar, mas existem outras técnicas? (Aposto que existem!) Quais são os melhores e...