Bons livros sobre técnicas de pré-processamento de dados e detecção de outlier

11

Como o título diz, alguém conhece um livro bom e atualizado que cubra o pré-processamento de dados em geral e, especialmente, em técnicas de detecção fora de série?

O livro não precisa se concentrar exclusivamente nisso, mas deve lidar exaustivamente com os tópicos acima mencionados - eu não ficaria feliz com algo que é um ponto de partida e cite uma lista de artigos, explicações das várias técnicas devem aparecer em o próprio livro.

Técnicas para lidar com a falta de dados preferíveis, mas não necessárias ...

em70
fonte
Você poderia nos dizer que tipo de dados (campo científico ou técnica de medição) está procurando?
cbeleites infeliz com SX
Dados coletados de usuários da web (não podem ser mais específicos). Estão incluídos os registros de data e hora (embora os dados não sejam estritamente relacionados ao tempo, pelo menos intuitivamente), atributos categóricos e atributos contínuos. Os valores extremos podem ser causados ​​por inúmeras razões, incl. robôs da web, usuários mal-intencionados e muitas outras fontes. Os dados são também muito grandes (GBs em formato CSV, vários milhões de entradas)
Em70
Para mim é o suficiente específica: não há necessidade de aborrecê-lo com pré-processamento para conjuntos de dados químicos ou espectroscópicas ...
cbeleites infeliz com SX

Respostas:

3

Embora específico da Stata, eu encontrei o livro de Scott Long, O fluxo de trabalho de análise de dados usando Stata , inestimável na área de gerenciamento e preparação de dados. O autor fornece muitos conselhos úteis sobre boas práticas em gerenciamento de dados, como limpeza e arquivamento de dados, verificação de outliers e tratamento de dados ausentes.

Ciarán
fonte
2
Também adoro este livro, mas sou um usuário Stata muito exigente no que diz respeito ao gerenciamento de dados. Enquanto eu discordo, outras pessoas nesta lista argumentaram que é muito específico do Stata para ser útil, portanto, faça advertências ao emissor / leitor.
precisa saber é o seguinte
Muito stata-ish pelo que percebo, e eu não estou nem familiarizado com stata, nem seria ajuda para este projeto mesmo se eu fosse (dados é muito grande, utilizando diferentes tecnologias)
Em70
O livro é realmente muito idiossincrático. As técnicas específicas de manipulação de dados (e principalmente os metadados) são específicas do Stata, mas as idéias gerais são transferíveis entre plataformas. Estou surpreso que, com a proporção de cerca de 20 livros Stata / 100 livros R no mercado, não haja livros comparáveis ​​sobre organização de fluxo de trabalho em R - o último é impossível? A maior quantidade de memória que me lembro vivamente de alocar para a Stata era de 48 Gb em uma máquina de 64 Gb - é isso que importa o tamanho. Se você precisar manipular objetos de estrutura totalmente diferente, faça isso em R, não em Stata.
StasK:
0

Para o SAS, existem as técnicas de limpeza de dados de Ron Cody usando o software SAS . Há um ditado no SAS-L: "Você nunca pode dar errado com um livro de Ron Cody"

Peter Flom - Restabelece Monica
fonte
Receio que o SAS não seja a ferramenta de escolha na minha configuração nem tenho familiaridade com ele. Além disso, estou procurando alguma abordagem, em vez de um livro de receitas. Digamos que estou buscando algo que seja mais do lado matemático e de modelagem.
Em12 de
0

Se você possui o básico (identificação de valores extremos, valores ausentes, ponderação, codificação), dependendo do tópico, há muito mais na literatura acadêmica simples a ser encontrada. Por exemplo, em pesquisas de pesquisa (que é um tópico em que muitas coisas podem dar errado e propensas a muitas fontes de viés), há muitos bons artigos a serem encontrados.

Ao se preparar para a regressão cruzada regular, as coisas podem ser menos complexas. Problema aí pode, por exemplo, remover muitos 'outliers' e, assim, ajustar artificialmente seu modelo.

Portanto, eu também recomendo que você, além de aprender boas técnicas, também tenha em mente o bom senso. Certifique-se de aplicar as técnicas de maneira correta e não cega. Quanto à discussão do software nas outras respostas. Acho que o SPSS não é ruim para a preparação de dados (eu também ouvi coisas boas sobre o SAS), dependendo do tamanho do seu conjunto de dados. Os menus suspensos são muito intuitivos.

Mas, como resposta direta à sua pergunta, a literatura acadêmica pode ou não ser uma fonte muito boa para a preparação dos dados, dependendo do tópico e da análise.

C. Pieters
fonte