Como o título diz, alguém conhece um livro bom e atualizado que cubra o pré-processamento de dados em geral e, especialmente, em técnicas de detecção fora de série?
O livro não precisa se concentrar exclusivamente nisso, mas deve lidar exaustivamente com os tópicos acima mencionados - eu não ficaria feliz com algo que é um ponto de partida e cite uma lista de artigos, explicações das várias técnicas devem aparecer em o próprio livro.
Técnicas para lidar com a falta de dados preferíveis, mas não necessárias ...
Respostas:
Embora específico da Stata, eu encontrei o livro de Scott Long, O fluxo de trabalho de análise de dados usando Stata , inestimável na área de gerenciamento e preparação de dados. O autor fornece muitos conselhos úteis sobre boas práticas em gerenciamento de dados, como limpeza e arquivamento de dados, verificação de outliers e tratamento de dados ausentes.
fonte
Para o SAS, existem as técnicas de limpeza de dados de Ron Cody usando o software SAS . Há um ditado no SAS-L: "Você nunca pode dar errado com um livro de Ron Cody"
fonte
Se você possui o básico (identificação de valores extremos, valores ausentes, ponderação, codificação), dependendo do tópico, há muito mais na literatura acadêmica simples a ser encontrada. Por exemplo, em pesquisas de pesquisa (que é um tópico em que muitas coisas podem dar errado e propensas a muitas fontes de viés), há muitos bons artigos a serem encontrados.
Ao se preparar para a regressão cruzada regular, as coisas podem ser menos complexas. Problema aí pode, por exemplo, remover muitos 'outliers' e, assim, ajustar artificialmente seu modelo.
Portanto, eu também recomendo que você, além de aprender boas técnicas, também tenha em mente o bom senso. Certifique-se de aplicar as técnicas de maneira correta e não cega. Quanto à discussão do software nas outras respostas. Acho que o SPSS não é ruim para a preparação de dados (eu também ouvi coisas boas sobre o SAS), dependendo do tamanho do seu conjunto de dados. Os menus suspensos são muito intuitivos.
Mas, como resposta direta à sua pergunta, a literatura acadêmica pode ou não ser uma fonte muito boa para a preparação dos dados, dependendo do tópico e da análise.
fonte