Como revisor, posso justificar a solicitação de disponibilização de dados e código, mesmo que a revista não o faça?

23

Como a ciência deve ser reproduzível, por definição, há um reconhecimento crescente de que dados e código são um componente essencial da reprodutibilidade, conforme discutido na Mesa Redonda de Yale para compartilhamento de dados e código .

Ao revisar um manuscrito para um periódico que não requer compartilhamento de dados e código, posso solicitar que os dados e o código sejam disponibilizados

  1. para mim no momento da revisão
  2. publicamente no momento da publicação (a revista apóia suplementos)

Além disso, como posso expressar essa solicitação?


update : embora eu esteja interessado no caso geral, esse caso específico consiste em uma metanálise com todos os dados publicados anteriormente, e o código são modelos lineares simples no SAS

note que a capacidade de fazer inferência entre estudos (como é o objetivo da meta-análise) seria bastante aprimorada se mais estudos fornecessem dados brutos

atualização 2 :

Solicitei os dados e o código do editor para fins de revisão, o editor considerou a solicitação razoável e recebi o material solicitado (suficiente, mas com nomes de variáveis ​​enigmáticos, sem metadados e poucos comentários em linha) dentro de um dia.

David LeBauer
fonte
3
Pessoalmente, eu ficaria bem com o código em praticamente qualquer circunstância. Dados é outra questão. A menos que já esteja disponível ao público, provavelmente não terei permissão para compartilhá-lo com ninguém. Suspeito que isso torne uma solicitação de dados irracional em muitas circunstâncias.
Andy W
4
Isso soa como algo que você deve discutir com seu editor ou editor associado. Se eles estão realizando seu trabalho, devem ser capazes de fornecer orientações e provavelmente serviriam como ponto de contato dos autores para qualquer solicitação desse tipo.
cardeal
1
Parece-me que muitos dos exemplos e discussões subsequentes se baseiam em situações anedóticas que podem variar tremendamente de acordo com a disciplina e com quais dados estamos falando. Certamente, algumas situações parecem perfeitamente razoáveis ​​para disseminar dados, mas isso não necessariamente caracteriza todas as situações. Esta questão está se tornando um discurso muito rápido!
21711 Andy W em
1
@Andy alguma sugestão sobre como se afastar de um discurso retórico? por exemplo, distinções que devem ser feitas no OP ou edições nas respostas (afinal, é CW).
Abe
1
Eu acho que este formulário tem um viés de seleção :-). A maioria de nós está aqui, porque de alguma forma apoia a ideia dos OPs.
suncoolsu

Respostas:

7

No que diz respeito à obtenção de dados como revisor, você tem direito a eles se precisar concluir sua revisão corretamente. Mais revisores devem solicitar dados e avaliá-los. Muitos periódicos têm políticas que podem exigir o código de dados e análise para fins de revisão.

A disponibilidade no momento da publicação não está clara para mim. Parece que você está dizendo que deseja forçar a questão de que os dados sejam disponibilizados ao público como condição de publicação. É uma péssima ideia se ainda não é uma política de diário. Você está tornando a publicação um alvo móvel injusto. Eles enviaram esperando que isso não fosse um requisito e você, nem o editor, deveria estar mudando o jogo.

Sem o conhecimento de muitos pesquisadores com financiamento público, eles são obrigados a disponibilizar seus dados publicamente. Por exemplo, a maioria das bolsas do NIH possui cláusulas nas quais o pesquisador deve estar disponível com seus dados. A maioria das agências concedentes do governo possui cláusulas de compartilhamento de dados que forçam o pesquisador a compartilhar o que encontram (talvez a força seja um pouco forte, uma vez que é muito difícil perder uma concessão por causa disso ... talvez perca a renovação). O público pagou pelos dados e, portanto, o público tem direito a eles - no caso de pesquisas com seres humanos, com direito a anonimato.

Alguns dos dados mais caros e sensíveis a serem coletados, dados FMRI humanos, também são alguns dos mais comumente disponibilizados ao público. Não apenas o PLoS, mas os principais periódicos do campo exigem o envio dos dados e a manutenção de um banco de dados disponível ao público. Eu acho que isso diz muito às pessoas que se opõem por razões de custo (é muito caro) e privacidade (são dados humanos de pequenos estudos e, às vezes, populações clínicas únicas que podem ser muito sensíveis). Esses são os motivos que tornam esses dados mais valiosos para o público. Pesquisadores que retêm esses dados estão prestando um desserviço às pessoas que os compraram (todos) e precisam de uma lição sobre quais são suas responsabilidades fora da pequena competição de laboratórios e publicações.

Se a pesquisa foi privada, genuinamente privada, então boa sorte.

John
fonte
Eu concordo com a maior parte do que há nisto - já existem requisitos para divulgar dados - geralmente para outros pesquisadores qualificados - em subsídios financiados pelo NIH e similares. Mas acho que estender isso a um requisito ad hoc para publicação está ultrapassando amplamente o papel de revisor.
fomite
1
(+1) Resposta ponderada e bem articulada. Uma coisa a ter em mente é que este site tem uma audiência bastante internacional. Espero que mais pesquisadores adotem uma visão colaborativa em relação a suas pesquisas e dados, mesmo que não haja NIH ou outra organização torcendo o braço.
cardeal
EpiGrad, caso não esteja claro a partir da resposta, senti que o requisito ad hoc de publicação não apenas ultrapassou os limites do revisor, mas também do editor.
John
Cardeal, obrigado pelo elogio. Obrigado pelo lembrete também. Eu tento ter em mente que o site é internacional. Por maior que seja o NIH, ele não está no meu país. ;)
João
@John. Sim - Eu só esqueci de colocar +1 embora concordando com você :)
fomite
6

Abordando as duas situações separadamente:

Como revisor: Sim, acho que você teria motivos para pedir para ver os dados ou o código. Mas se eu fosse você, eu me prepararia para ver coisas como código reduzido ou uma subamostra dos dados. As pessoas implementam pesquisas futuras que não são relatadas neste documento em seus códigos o tempo todo, e você não tem direito a esse código. Como faço pesquisa principalmente biomédica, também estaria preparado para lidar com alguns acordos de uso de dados bastante restritivos.

Na própria revista: Não. Se um pesquisador deseja reproduzir meus resultados, eles podem se aproximar de mim para pedir código - é por isso que temos autores correspondentes. Para dados, absolutamente não, sob nenhuma circunstância. Meus dados são regidos por IRB e acordos de confidencialidade - eles não serão divulgados apenas. Se eu quisercomo um conjunto de dados público, posso simular um conjunto de dados com propriedades semelhantes (ou seja, os dados de rede "Faux-Mesa" disponíveis em um dos pacotes de rede para R), mas como revisor, você não precisa chamar isso . Se for um requisito para toda a revista, os autores sabiam que seus dados / código seriam públicos ao enviá-los, mas se não forem, não. Seu papel é avaliar a qualidade do trabalho em si (portanto, eu estou bem com ele para os propósitos da revisão), não usar sua capacidade de contribuir para a aceitação / rejeição do trabalho e forçar o que é essencialmente um ponto filosófico / político fora do escopo da revista.

Na melhor das hipóteses, eu colocaria "Eu exortaria fortemente os autores a disponibilizarem o código e os dados deles, sempre que possível" em seus comentários, mas eu não os expressaria mais forte do que isso e não os colocaria em a lista formal de "Coisas que acho que precisam ser consertadas antes que isso veja a luz do dia".

Fomite
fonte
Apenas notei suas edições: nesse caso, no que diz respeito ao artigo, a resposta é realmente um forte "não" - supondo que o artigo tenha citações. Se o objetivo da solicitação for 'pesquisa reproduzível' e os dados forem publicamente encontrados, não há razão para que um pesquisador que tente confirmar as descobertas não possa fazer isso sozinho. Além disso, se o ponto é realmente avaliar a ciência, em vez de apenas demonstrar que você também pode clicar em "Executar" e obter os mesmos resultados, passar pelo processo de busca e abstração no literato é parte da verificação de um resultado.
Fomite 17/08
para que a pesquisa seja reproduzível, a versão do código e dos dados usados ​​na análise deve ser disponibilizada, e o código não usado na análise não seria esperado (ou necessariamente relevante).
David LeBauer
@EpiGrad: Em certo nível, eu não concordo muito com esse forte não . Ultimamente, Keith Baggerly vem evangelizando esse assunto e faz algumas observações interessantes. Veja, por exemplo, KA Baggerly e KR Coombes, Derivando quimiosensibilidade a partir de linhas celulares: bioinformática forense e pesquisa reproduzível em biologia de alto rendimento , Ann. Appl. Stat. 3, n. 4, pp. 1309-1334. Há também uma versão arxiv .
cardeal
Conheço muito poucos pesquisadores financiados por doações que têm questões de IRB e confidencialidade que realmente restringem a publicação de dados adequadamente anonimizados. Se você estiver nessa situação, é um caso bastante raro.
John
@EpiGrad Também questiono o forte não . Os métodos usados ​​para obter dados brutos para métricas derivadas em uma metanálise geralmente exigem um amplo conjunto de suposições relacionadas a diferenças de metodologia e interpretação que ocorrem no nível de um estudo individual. Nesse caso, existem mais de 200 estudos representados, portanto o tempo necessário para reconstruir o conjunto de dados seria proibitivo - e acabaria por inibir o objetivo final do progresso da ciência.
David LeBauer
5

Como John diz, a disponibilidade de dados para os revisores deve ser fácil; uma revisão cuidadosa deve incluir a replicação da análise e, como tal, requer acesso aos dados.

Com relação à disponibilidade pública dos dados após a publicação, eu diria que a batalha deve ser travada com a revista em geral, e não com relação a uma submissão específica.

Em uma observação mais geral, as agências de financiamento e os IRBs estão se tornando cada vez mais conscientes de que o compartilhamento de dados é um componente de pesquisa científica e ética. Ao aumentar a disponibilidade para re-análise que possa gerar novos resultados de relatórios incorretos corretos, o compartilhamento de dados aumenta os benefícios potenciais para a pesquisa, modificando, assim, a relação custo / benefício para a vantagem dos participantes da pesquisa. Certamente, é necessário informar os participantes da possibilidade de que seus dados sejam compartilhados, e também é necessário estabelecer salvaguardas para impedir o aumento do risco de identificação dos participantes, mas isso pode ser alcançado na maioria das circunstâncias. Em minha própria pesquisa, garanto aos participantes (e meu IRB) que (1) os dados serão armazenados em um formato criptografado forte (atualizado à medida que a tecnologia de descriptografia avança),

Mike Lawrence
fonte
1

Não tenho nenhuma experiência com isso, mas parece-me que você pode insistir no número 1 como parte de sua própria diligência na análise dos resultados. Não vejo como você pode insistir no # 2, no entanto.

Wayne
fonte