O que é um processo de análise de dados praticamente bom?

15

Eu gostaria de saber ou ter referências sobre o processo de análise que a maioria dos analistas de dados estatísticos passa por cada projeto de análise de dados.

Se eu fizer uma "lista", para concluir o projeto de análise de dados, um analista deverá:

  1. primeiro colete os requisitos para o projeto,
  2. planejar / projetar sua análise de dados com base nesses requisitos antes
  3. na verdade, pré-processamento de dados,
  4. executando a análise de dados e
  5. escrevendo um relatório com base em seus resultados de análise.

Para esta pergunta, estou interessado em mais detalhes da Etapa 2. Mas entendo que isso não é praticamente claro, pois o analista pode ter que mudar seu plano ou design de acordo com a saída da análise de dados. Existe alguma referência sobre este assunto?

Tae-Sung Shin
fonte

Respostas:

17

Meu "plano" ou "lista" favorito é o documento de Scott Emerson, Organizando sua abordagem para uma análise de dados .

Nota: as duas últimas páginas estão sob o título "Requisitos Gerais para o Exame de Doutorado Aplicado", mas o conselho dado é generalizado para trabalhar em qualquer problema de análise.


fonte
Ame cada parte do documento. Obrigado pela referência valiosa.
Tae-Sung Shin
5

Eu achei o fluxo de trabalho de análise de dados usando Stata um bom livro, particularmente (mas não apenas) como usuário Stata. Descobri muito com o que discordar, mas mesmo isso ajudou a esclarecer por que faço as coisas de certas maneiras.

Dimitriy V. Masterov
fonte
4
+1, mas ressalva : este livro só é valioso se você for um usuário Stata. Eu não uso Stata (na verdade eu nunca uso). Por outro lado, eu gosto de Long, então verifiquei isso na biblioteca. Tenho certeza de que existem muitas informações boas para todos, mas elas estão tão entrelaçadas com o uso do Stata que é impossível extrair as informações gerais do domínio.
gung - Restabelece Monica
2

CRISP-DM , cunhado pela empresa SPSS (agora pertence à IBM) é um acrônimo para o processo de mineração de dados, que é o mesmo que para "análise de dados". O SAS tem um processo semelhante chamado SEMMA .

Galit Shmueli
fonte