Frequentemente ouvimos falar de gerenciamento de projetos e padrões de design em ciência da computação, mas com menos frequência em análises estatísticas. No entanto, parece que um passo decisivo para a criação de um projeto estatístico eficaz e durável é manter as coisas organizadas.
Defendo frequentemente o uso de R e uma organização consistente de arquivos em pastas separadas (arquivo de dados brutos, arquivo de dados transformado, scripts R, figuras, notas, etc.). O principal motivo dessa abordagem é que pode ser mais fácil executar sua análise posteriormente (quando você esqueceu como produziu um determinado gráfico, por exemplo).
Quais são as melhores práticas para gerenciamento estatístico de projetos ou as recomendações que você gostaria de dar com sua própria experiência? Obviamente, isso se aplica a qualquer software estatístico. ( uma resposta por post, por favor )
Respostas:
Estou compilando uma rápida série de diretrizes que encontrei no SO (conforme sugerido por @Shane), Biostar (daqui em diante, BS) e neste SE. Eu tentei o meu melhor para reconhecer a propriedade de cada item e selecionar a primeira ou a resposta mais votada. Também adicionei itens próprios e sinalizei itens específicos para o ambiente [R].
Gestão de dados
Codificação
Análise
Versionamento
Edição / Relatórios
Como uma observação lateral, Hadley Wickham oferece uma visão abrangente do gerenciamento de projetos de R , incluindo exemplificação reproduzível e uma filosofia unificada de dados .
Finalmente, em seu fluxo de trabalho orientado para a análise de dados estatísticos, Oliver Kirchkamp oferece uma visão geral muito detalhada de por que a adoção e a obediência a um fluxo de trabalho específico ajudarão os estatísticos a colaborar entre si, garantindo a integridade dos dados e a reprodutibilidade dos resultados. Além disso, inclui algumas discussões sobre o uso de um sistema de tecelagem e controle de versão. Os usuários do Stata também podem achar úteis o trabalho de J. Scott Long, O fluxo de análise de dados usando o Stata .
fonte
Isso não fornece especificamente uma resposta, mas você pode examinar estas perguntas relacionadas ao stackoverflow:
Você também pode estar interessado no projeto recente de John Myles White para criar um modelo de projeto estatístico.
fonte
Isso se sobrepõe à resposta de Shane, mas, na minha opinião, existem dois pilares principais:
fonte
van Belle é a fonte das regras de projetos estatísticos bem-sucedidos.
fonte
Apenas meus 2 centavos. Eu achei o Notepad ++ útil para isso. Posso manter scripts separados (controle de programa, formatação de dados etc.) e um arquivo .pad para cada projeto. A chamada do arquivo .pad é todos os scripts associados a esse projeto.
fonte
Enquanto as outras respostas são ótimas, eu acrescentaria outro sentimento: Evite usar o SPSS. Usei o SPSS para minha tese de mestrado e agora trabalho regularmente em pesquisa de mercado.
Enquanto trabalhava com o SPSS, era incrivelmente difícil desenvolver código estatístico organizado, devido ao fato de o SPSS ser ruim em lidar com vários arquivos (claro, você pode lidar com vários arquivos, mas não é tão indolor quanto R), porque não é possível armazenar conjuntos de dados para uma variável - você precisa usar o código "ativar conjunto de dados x" -, o que pode ser uma dor total. Além disso, a sintaxe é desajeitada e incentiva atalhos, o que torna o código ainda mais ilegível.
fonte
Os Jupyter Notebooks, que funcionam com R / Python / Matlab / etc, removem o incômodo de lembrar qual script gera uma determinada figura. Esta postagem descreve uma maneira organizada de manter o código e a figura um ao lado do outro. Manter todas as figuras de um capítulo de papel ou tese em um único bloco de notas facilita a localização do código associado.
Ainda melhor, de fato, porque você pode rolar, digamos, uma dúzia de figuras para encontrar a que deseja. O código é mantido oculto até que seja necessário.
fonte