A pergunta: existem bons exemplos de pesquisas reproduzíveis usando R disponíveis gratuitamente on-line?
Exemplo ideal: Especificamente, os exemplos ideais forneceriam:
- Os dados brutos (e idealmente metadados explicando os dados),
- Todo o código R, incluindo importação, processamento, análise e geração de dados,
- Sweave ou alguma outra abordagem para vincular a saída final ao documento final,
- Tudo em um formato que pode ser facilmente baixado e compilado no computador de um leitor.
Idealmente, o exemplo seria um artigo de jornal ou uma tese em que a ênfase está em um tópico aplicado real, em oposição a um exemplo de ensino estatístico.
Motivos de interesse: Estou particularmente interessado em tópicos aplicados em artigos e teses de periódicos, pois nessas situações surgem vários problemas adicionais:
- Surgem problemas relacionados à limpeza e processamento de dados,
- Surgem problemas relacionados ao gerenciamento de metadados,
- Os periódicos e teses geralmente têm expectativas de guia de estilo em relação à aparência e formatação de tabelas e figuras,
- Muitas revistas e teses costumam ter uma ampla gama de análises que levantam questões relacionadas ao fluxo de trabalho (como sequenciar análises) e ao tempo de processamento (por exemplo, questões de análises de cache, etc.).
Ver exemplos de trabalho completos pode fornecer um bom material instrucional para pesquisadores que começam com pesquisas reproduzíveis.
fonte
Irreprodutibilidade dos preditores de quimioterapia NCI60
Esta é uma análise reprodutível que mostra a falta de reprodutibilidade de um artigo que está nas notícias. Um ensaio clínico baseado nas falsas conclusões do artigo irreprodutível foi suspenso, reinstalado, suspenso novamente, ... É um bom exemplo de análise reproduzível nas notícias.
fonte
Eu tenho alguns exemplos na minha página de trabalhos de pesquisa . (Não tenho permissão para postar mais de um hiperlink como um novo membro. Por isso, descreverei os artigos desse site.)
(1) "Fazendo efeitos manifestos em experiências aleatórias" usa o sistema de vinheta de R.
(2) "Atribuindo efeitos a uma campanha aleatória de clusters para obter e votar" era um artigo mais complexo, envolvendo algumas simulações demoradas. Usamos um sistema baseado em Makefile e o postamos no Dataverse
(3) "EDA para HLM" foi minha primeira tentativa. Aqui, basta colocar os dados e os arquivos Sweave associados em um arquivo tar.
Um problema que descobrimos ao criar nosso arquivo JASA foi que as versões e padrões dos pacotes CRAN foram alterados. Portanto, nesse arquivo, também incluímos as versões dos pacotes que usamos. O sistema baseado em vinheta provavelmente será interrompido quando as pessoas mudarem seus pacotes (não sabe como incluir pacotes extras no pacote que é o Compêndio).
Finalmente, eu me pergunto sobre o que fazer quando o próprio R muda. Existem maneiras de produzir, digamos, uma máquina virtual que reproduza todo o ambiente computacional usado para um papel de forma que a máquina virtual não seja enorme?
Enfim, espero que esses exemplos ajudem. Pelo menos eles mostram algumas das minhas próprias experiências nesta área.
(Aqui estão alguns hiperlinks de texto sem formatação).
fonte
Koenker e Zeileis fornecem uma página da Web com um exemplo relativamente completo. Eles compartilham:
fonte
Escrevemos um artigo explicando como usar o R / Biocondutor ao analisar dados de microarranjos. O artigo foi escrito em Sweave e todo o código usado para gerar os gráficos é incluído como material suplementar.
Gillespie, CS, Lei, G., Rapazes, RJ, Greenall, AJ, Wilkinson, DJ de 2010. tempo analisando levedura dados curso de microarranjos utilizando BioConductor: um estudo de caso utilizando yeast2 matrizes Affymetrix BMC Research Notes, 3:81.
fonte
A página de Charles Geyer no Sweave tem um exemplo de uma tese, que atende a alguns de seus requisitos (os dados brutos são simplesmente de um pacote R, mas o código R / sweave e o PDF final estão disponíveis):
(O arquivo de origem está vinculado na seção "Materiais complementares para um artigo".)
Sei que já encontrei pelo menos um exemplo de R navegando na página de material ReproducibleResearch.net antes, mas infelizmente não o coloquei como favorito.
fonte
Simon Jackman tem um exemplo particularmente útil de analisar os resultados de uma pesquisa: "Americanos e australianos 10 anos após o 11 de setembro". Possui vários exemplos de integração de tabelas e figuras.
Ele fez o documento Sweave e o relatório em PDF através deste post do blog .
Embora os dados brutos não sejam fornecidos (até onde eu saiba), por isso não é possível executar os exemplos reais do Sweave, acho que podemos aprender um pouco sobre o código Sweave.
fonte
Neil Saunders analisou as interações on-line associadas a uma conferência. Várias propriedades que o tornam um exemplo útil do Sweave incluem:
ggplot
Os materiais estão disponíveis aqui:
fonte
Veja também o Journal Of Statistical Software ; eles incentivam a produção de papéis no Sweave.
fonte
Encontrei bons no passado e vou postar assim que desenterrá-los, mas algumas sugestões gerais rápidas:
fonte
Robert Gentleman escreveu um artigo chamado "Pesquisa Reproduzível: Um Estudo de Caso de Bioinformática"
Ele implementa um pequeno conjunto de análises como um pacote R e usa Sweave. Ele também discute o uso do Sweave de maneira mais geral.
Consulte a seção "Arquivos relacionados" da página do artigo para obter um arquivo de todos os arquivos e pastas usados.
Referência:
fonte
http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1
Um bom trabalho, por um colega de laboratório meu. Nosso PI ficou bastante satisfeito quando algo parecido com a correspondência de fãs apareceu para isso. Agora todas as publicações do grupo têm os métodos suplementares estabelecidos no LaTeX / Sweave. Alguns documentos também (não é possível decidir se o meu deve permanecer no LyX / Sweave ou dobrado e apenas fazer os suplementos no Sweave).
fonte
Procurar exemplos e práticas é uma boa maneira de aprender, mas eu só queria mencionar que a reprodutibilidade não tem apenas o lado técnico / de repetição de scripts, mas também o estilo do código e o aspecto de estruturação, a minimização dos efeitos colaterais nas principais funções etc. O livro de Chambers Software para análise de dados permite entender mais profundamente as técnicas que ajudam a evitar problemas de confiabilidade e reprodutibilidade no nível do código R.
fonte
se você ainda precisar de um ótimo exemplo de uma análise totalmente REPRODUCIBLE mais um PAPEL, use este repositório .
O @jscamac fez um ótimo trabalho, tornando sua análise reproduzível e eu pessoalmente a validei.
Você pode aprender como usar funções específicas do R, como o pacote,
remake
para garantir a reprodutibilidade.Cuidado / os cálculos levam cerca de uma hora para serem concluídos.
É tudo roteirizado e produz um papel LaTeX no final com figuras.
fonte