Exemplos substantivos completos de pesquisa reproduzível usando R

71

A pergunta: existem bons exemplos de pesquisas reproduzíveis usando R disponíveis gratuitamente on-line?

Exemplo ideal: Especificamente, os exemplos ideais forneceriam:

  • Os dados brutos (e idealmente metadados explicando os dados),
  • Todo o código R, incluindo importação, processamento, análise e geração de dados,
  • Sweave ou alguma outra abordagem para vincular a saída final ao documento final,
  • Tudo em um formato que pode ser facilmente baixado e compilado no computador de um leitor.

Idealmente, o exemplo seria um artigo de jornal ou uma tese em que a ênfase está em um tópico aplicado real, em oposição a um exemplo de ensino estatístico.

Motivos de interesse: Estou particularmente interessado em tópicos aplicados em artigos e teses de periódicos, pois nessas situações surgem vários problemas adicionais:

  • Surgem problemas relacionados à limpeza e processamento de dados,
  • Surgem problemas relacionados ao gerenciamento de metadados,
  • Os periódicos e teses geralmente têm expectativas de guia de estilo em relação à aparência e formatação de tabelas e figuras,
  • Muitas revistas e teses costumam ter uma ampla gama de análises que levantam questões relacionadas ao fluxo de trabalho (como sequenciar análises) e ao tempo de processamento (por exemplo, questões de análises de cache, etc.).

Ver exemplos de trabalho completos pode fornecer um bom material instrucional para pesquisadores que começam com pesquisas reproduzíveis.

Jeromy Anglim
fonte

Respostas:

14

Frank Harrell tem batido o tambor em pesquisas e relatórios reproduzíveis por muitos, muitos anos. Você pode começar nesta página wiki, que lista muitos outros recursos, incluindo pesquisa publicada e também cobre a página de Charles Geyer.

Dirk Eddelbuettel
fonte
11

A revista Biostatistics possui um editor associado de reprodutibilidade e todos os seus artigos estão marcados:

Pesquisa reproduzível

Nossa política de pesquisa reproduzível é que os artigos da revista sejam marcados com pipa D se os dados em que se baseiam estiverem disponíveis gratuitamente, C se o código dos autores estiver disponível gratuitamente e R se ambos os dados e código estiverem disponíveis, e nossa O Editor Associado de Reprodutibilidade pode usá-los para reproduzir os resultados no artigo. Os dados e o código são publicados eletronicamente no site da revista como Materiais Complementares.

http://biostatistics.oxfordjournals.org/

Quão boa é essa ideia?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract vem com um pacote R nos suplementares que fazem a análise - ainda não tentei. Além disso, não é possível descobrir onde a classificação de abertura está especificada. Estou enviando o editor associado com algumas perguntas ...

[editar]

Roger Peng, editor associado, me disse que provavelmente não há como encontrar os papéis reproduzíveis sem obter o PDF. Ele me apontou para este que possui um grande 'R' (que não significa filmes com classificação R) para reprodutibilidade:

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

Claro que o diário em si não é gratuito ... #fail

Barry

Spacedman
fonte
11
é ótimo ver um diário priorizando a reprodutibilidade. Você já viu bons exemplos de artigos marcados com R?
Jeromy Anglim
11
Eles não o priorizam para publicação, acho que só querem destacá-lo. Vou editar minha resposta com um exemplo.
Spacedman
10

Irreprodutibilidade dos preditores de quimioterapia NCI60

Esta é uma análise reprodutível que mostra a falta de reprodutibilidade de um artigo que está nas notícias. Um ensaio clínico baseado nas falsas conclusões do artigo irreprodutível foi suspenso, reinstalado, suspenso novamente, ... É um bom exemplo de análise reproduzível nas notícias.

John D. Cook
fonte
10

Eu tenho alguns exemplos na minha página de trabalhos de pesquisa . (Não tenho permissão para postar mais de um hiperlink como um novo membro. Por isso, descreverei os artigos desse site.)

(1) "Fazendo efeitos manifestos em experiências aleatórias" usa o sistema de vinheta de R.

(2) "Atribuindo efeitos a uma campanha aleatória de clusters para obter e votar" era um artigo mais complexo, envolvendo algumas simulações demoradas. Usamos um sistema baseado em Makefile e o postamos no Dataverse

(3) "EDA para HLM" foi minha primeira tentativa. Aqui, basta colocar os dados e os arquivos Sweave associados em um arquivo tar.

Um problema que descobrimos ao criar nosso arquivo JASA foi que as versões e padrões dos pacotes CRAN foram alterados. Portanto, nesse arquivo, também incluímos as versões dos pacotes que usamos. O sistema baseado em vinheta provavelmente será interrompido quando as pessoas mudarem seus pacotes (não sabe como incluir pacotes extras no pacote que é o Compêndio).

Finalmente, eu me pergunto sobre o que fazer quando o próprio R muda. Existem maneiras de produzir, digamos, uma máquina virtual que reproduza todo o ambiente computacional usado para um papel de forma que a máquina virtual não seja enorme?

Enfim, espero que esses exemplos ajudem. Pelo menos eles mostram algumas das minhas próprias experiências nesta área.

(Aqui estão alguns hiperlinks de texto sem formatação).

  [2]: http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]: http://hdl.handle.net/1902.1/12174
  [4]: http://hdl.handle.net/1902.1/13376
Jake
fonte
Você levanta algumas questões interessantes. Publiquei
Jeromy Anglim
9

Koenker e Zeileis fornecem uma página da Web com um exemplo relativamente completo. Eles compartilham:

  • Rnw (código Sweave)
  • Código de análise R
  • PDF final
  • Discussão sobre problemas de controle de versão
Jeromy Anglim
fonte
8

Escrevemos um artigo explicando como usar o R ​​/ Biocondutor ao analisar dados de microarranjos. O artigo foi escrito em Sweave e todo o código usado para gerar os gráficos é incluído como material suplementar.

Gillespie, CS, Lei, G., Rapazes, RJ, Greenall, AJ, Wilkinson, DJ de 2010. tempo analisando levedura dados curso de microarranjos utilizando BioConductor: um estudo de caso utilizando yeast2 matrizes Affymetrix BMC Research Notes, 3:81.

csgillespie
fonte
7

A página de Charles Geyer no Sweave tem um exemplo de uma tese, que atende a alguns de seus requisitos (os dados brutos são simplesmente de um pacote R, mas o código R / sweave e o PDF final estão disponíveis):

Um artigo sobre a teoria na tese de Yun Ju Sung, Inferência de probabilidade de Monte Carlo para modelos de dados ausentes (pré-impressão) continha exemplos de computação. Todo número no jornal e todo enredo foram retirados (recortar e colar, devo admitir) de um documento de "materiais suplementares" feito no Sweave.

(O arquivo de origem está vinculado na seção "Materiais complementares para um artigo".)

Sei que já encontrei pelo menos um exemplo de R navegando na página de material ReproducibleResearch.net antes, mas infelizmente não o coloquei como favorito.

ars
fonte
5

Simon Jackman tem um exemplo particularmente útil de analisar os resultados de uma pesquisa: "Americanos e australianos 10 anos após o 11 de setembro". Possui vários exemplos de integração de tabelas e figuras.

Ele fez o documento Sweave e o relatório em PDF através deste post do blog .

Embora os dados brutos não sejam fornecidos (até onde eu saiba), por isso não é possível executar os exemplos reais do Sweave, acho que podemos aprender um pouco sobre o código Sweave.

Jeromy Anglim
fonte
5

Neil Saunders analisou as interações on-line associadas a uma conferência. Várias propriedades que o tornam um exemplo útil do Sweave incluem:

  • O arquivo Rnw é fornecido
  • Os gráficos são gerados usando ggplot
  • Bom tamanho e domínio facilmente compreensível

Os materiais estão disponíveis aqui:

Jeromy Anglim
fonte
4

Veja também o Journal Of Statistical Software ; eles incentivam a produção de papéis no Sweave.

user88
fonte
Não, não formalmente - o envio do LaTeX é encorajador, mas se você olhar a página de instruções, ela não contém a palavra Sweave. Os autores o usam e / ou enviam o código R com o artigo, mas para mim esse eco reflete o argumento de Shane sobre vinhetas de embalagens.
Dirk Eddelbuettel
Ok, ainda a maioria dos remetentes o usa (também o estilo do diário inclui o Swave.sty); o principal problema é que não há Rnws publicados, ainda os trabalhos feitos pelo Sweave vêm com a saída Stangle.
4

Encontrei bons no passado e vou postar assim que desenterrá-los, mas algumas sugestões gerais rápidas:

  1. Você pode encontrar alguns exemplos interessantes pesquisando no google com palavras-chave e ext: rnw (que pesquisará arquivos com a extensão sweave). Aqui está um exemplo de pesquisa . Este é o terceiro resultado da minha pesquisa: http://www.ne.su.se/paper/araietal_source.Rnw . Aqui está outro exemplo da minha pesquisa: http://www.stat.umn.edu/geyer/gdor/ .
  2. Muitos pacotes R possuem vinhetas interessantes, que basicamente equivalem à mesma coisa. Um exemplo: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw
Shane
fonte
4

Robert Gentleman escreveu um artigo chamado "Pesquisa Reproduzível: Um Estudo de Caso de Bioinformática"

Ele implementa um pequeno conjunto de análises como um pacote R e usa Sweave. Ele também discute o uso do Sweave de maneira mais geral.

Consulte a seção "Arquivos relacionados" da página do artigo para obter um arquivo de todos os arquivos e pastas usados.

Referência:

  • Gentleman, Robert (2005) "Pesquisa Reproduzível: Um Estudo de Caso de Bioinformática", Aplicações Estatísticas em Genética e Biologia Molecular: vol. 4: Iss. 1, artigo 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Disponível em: http://www.bepress.com/sagmb/vol4/iss1/art2
Jeromy Anglim
fonte
4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Um bom trabalho, por um colega de laboratório meu. Nosso PI ficou bastante satisfeito quando algo parecido com a correspondência de fãs apareceu para isso. Agora todas as publicações do grupo têm os métodos suplementares estabelecidos no LaTeX / Sweave. Alguns documentos também (não é possível decidir se o meu deve permanecer no LyX / Sweave ou dobrado e apenas fazer os suplementos no Sweave).

Tim
fonte
3

Procurar exemplos e práticas é uma boa maneira de aprender, mas eu só queria mencionar que a reprodutibilidade não tem apenas o lado técnico / de repetição de scripts, mas também o estilo do código e o aspecto de estruturação, a minimização dos efeitos colaterais nas principais funções etc. O livro de Chambers Software para análise de dados permite entender mais profundamente as técnicas que ajudam a evitar problemas de confiabilidade e reprodutibilidade no nível do código R.

zzr
fonte
2

se você ainda precisar de um ótimo exemplo de uma análise totalmente REPRODUCIBLE mais um PAPEL, use este repositório .

O @jscamac fez um ótimo trabalho, tornando sua análise reproduzível e eu pessoalmente a validei.

Você pode aprender como usar funções específicas do R, como o pacote, remakepara garantir a reprodutibilidade.

Cuidado / os cálculos levam cerca de uma hora para serem concluídos.

É tudo roteirizado e produz um papel LaTeX no final com figuras.

WojciechF
fonte