“Exploração” de dados versus “bisbilhotando” / “torturando”?

30

Muitas vezes me deparei com avisos informais contra "espionagem de dados" (aqui está um exemplo divertido ), e acho que tenho uma ideia intuitiva do que isso significa e por que pode ser um problema.

Por outro lado, "análise exploratória de dados" parece ser um procedimento perfeitamente respeitável em estatística, pelo menos a julgar pelo fato de que um livro com esse título ainda seja reverenciado como citado como clássico.

Na minha linha de trabalho, muitas vezes me deparo com o que me parece um desenfreado "escaneamento de dados", ou talvez seja melhor descrito como " tortura de dados ", embora aqueles que o fazem pareçam ter a mesma atividade que uma exploração inteiramente razoável e sem problemas. "

Aqui está o cenário típico: experimentos caros são realizados (sem muita reflexão dada à análise subseqüente), os pesquisadores originais não conseguem discernir prontamente uma "história" nos dados coletados, alguém é trazido para aplicar alguma "magia estatística" e quem , depois de fatiar e picar os dados de todas as formas, finalmente consegue extrair dele uma "história" publicável.

Obviamente, geralmente há alguma "validação" lançada no relatório / artigo final para mostrar que a análise estatística está em alta, mas a flagrante atitude de publicar a todo custo por trás disso tudo me deixa em dúvida.

Infelizmente, meu entendimento limitado dos prós e contras da análise de dados me impede de ir além de tão vagas dúvidas, de modo que minha resposta conservadora é basicamente desconsiderar essas descobertas.

Minha esperança é que não apenas uma melhor compreensão da distinção entre exploração e bisbilhotar / torturar, mas também, e mais importante, uma melhor compreensão dos princípios e técnicas para detectar quando essa linha foi cruzada, me permita avaliar tais descobertas em de uma maneira que possa explicar razoavelmente um procedimento analítico abaixo do ideal e, assim, ser capaz de ir além da minha resposta atual e simplória de descrença geral.

EDIT: Obrigado a todos pelos comentários e respostas muito interessantes. A julgar pelo conteúdo, acho que talvez não tenha explicado minha pergunta suficientemente bem. Espero que esta atualização esclareça as questões.

Minha questão aqui não diz respeito tanto o que eu deveria fazer para evitar torturar os meus dados (embora esta é uma pergunta que também me interesses), mas sim: como devo considerar (ou avaliar) os resultados que eu sei para um fato de ter chegado através de tal "tortura de dados".

A situação fica mais interessante naqueles casos (muito mais raros) em que, além disso, estou em posição de expressar uma opinião sobre essas "descobertas" antes de serem submetidas à publicação.

Nesse momento, o máximo que posso fazer é dizer algo como "Não sei quanta credibilidade posso dar a essas descobertas, dado o que sei sobre as suposições e procedimentos que foram usados para obtê-las". Isso é vago demais para valer a pena dizer. Desejar ir além dessa imprecisão foi a motivação para o meu post.

Para ser justo, minhas dúvidas aqui são baseadas em métodos estatísticos mais do que aparentemente questionáveis. De fato, eu vejo o último mais como conseqüência do problema mais profundo: uma combinação de uma atitude descuidada em relação ao projeto experimental, juntamente com um compromisso categórico de publicar os resultados como estão (ou seja, sem outras experiências). Obviamente, os projetos de acompanhamento são sempre previstos, mas é simplesmente fora de questão que nem um único documento saia de, por exemplo, "uma geladeira cheia de 100.000 amostras".

As estatísticas são apresentadas apenas como um meio de atingir esse objetivo supremo. A única justificativa para se apegar às estatísticas (por mais secundárias que sejam em todo o cenário) é que um desafio frontal à suposição de "publicação a todo custo" é simplesmente inútil.

De fato, só consigo pensar em uma resposta eficaz em tais situações: propor algum teste estatístico (não exigindo experimentação adicional) que realmente teste a qualidade da análise. Mas eu simplesmente não tenho as estatísticas nas estatísticas. Minha esperança (ingênua em retrospecto) era descobrir o que eu poderia estudar que me permitisse realizar esses testes ...

Enquanto escrevo isso, percebo que, se ainda não existe, o mundo poderia usar um novo sub-ramo da estatística, dedicado a técnicas para detectar e expor "tortura de dados". (Obviamente, não quero me deixar levar pela metáfora da "tortura": a questão não é "tortura de dados" em si, mas as "descobertas" espúrias que ela pode levar a).

multiple-comparisons interpretation eda kjo
fonte

11

@BabakP Essa cotação aparece em seis respostas aqui, incluindo nos tópicos de piadas e cotações de estatísticas. (O último é uma fonte boa para as citações relevantes se você está sempre caçando alguma para baixo.)

whuber

7

Eu não acho que exista alguma distinção entre as técnicas usadas em 'espionagem de dados' e em 'análise exploratória de dados' - o uso depreciativo do primeiro termo é para uma análise exploratória apresentada enganosamente como uma análise confirmatória.

Scortchi - Restabelece Monica

8

Feynman, no livro a que você se refere, já responde a essa pergunta: "Se ele quiser testar esta hipótese [encontrada através da exploração], ... ele deve fazer outro experimento". O que você parece estar perguntando se Feynman pode ter sido muito extremo ("exagerando um pouco"): até que ponto, se é que pode, justificar o teste formal de hipóteses quando foram desenvolvidos, explorando os mesmos dados ?

whuber

2

@ whuber: na prática, é ainda mais dramático, porque geralmente é testado com dados diferentes, mas a mesma configuração experimental ou tipo de experimento leva inadvertidamente a resultados semelhantes.

janeiro

11

@ Janeiro: isso depende dos seus dados / experimentos, eu acho. Considere, por exemplo, pesquisa biológica / médica. Para os dados que vejo, a maior variação é geralmente entre pacientes (sujeitos). Espera-se que repetir o experimento com novos pacientes leve a resultados semelhantes, mas, na prática, esse geralmente não é o caso (ou seja, os resultados das previsões de modelos desenvolvidos no primeiro conjunto de pacientes são muito piores do que o esperado, o que significa que ocorreu superaquecimento. de dados na primeira experiência foi "torturado")

cbeleites suporta Monica

22

Há uma distinção que às vezes não recebe atenção suficiente, ou seja, geração de hipótese versus teste de hipótese ou análise exploratória versus teste de hipótese. Você tem permissão para que todos os truques sujos do mundo venham com sua ideia / hipótese. Mas quando você o testar mais tarde, você deve cruelmente matar seus queridos.

Sou biólogo trabalhando com dados de alta produtividade o tempo todo e, sim, faço isso "fatiando e cortando" com bastante frequência. A maioria dos casos que o experimento realizado não foi cuidadosamente projetada; ou talvez aqueles que o planejaram não tenham respondido a todos os resultados possíveis. Ou a atitude geral quando o planejamento era "vamos ver o que há lá". Acabamos com conjuntos de dados caros, valiosos e interessantes por si só, que eu reviro e volto para criar uma história.

Mas então, é apenas uma história (possível hora de dormir). Depois de selecionar alguns ângulos interessantes - e aqui está o ponto crucial - você deve testá-lo não apenas com conjuntos de dados independentes ou amostras independentes, mas preferencialmente com uma abordagem independente , um sistema experimental independente.

A importância dessa última coisa - uma configuração experimental independente, não apenas um conjunto independente de medições ou amostras - é frequentemente subestimada. Entretanto, quando testamos 30.000 variáveis em busca de diferenças significativas, geralmente acontece que, embora amostras semelhantes (mas diferentes) da mesma coorte e analisadas com o mesmo método não rejeitem a hipótese que baseamos no conjunto anterior. Mas então nos voltamos para outro tipo de experimento e outra coorte, e nossas descobertas resultam de um viés metodológico ou são limitadas em sua aplicabilidade.

É por isso que muitas vezes precisamos de vários trabalhos de vários pesquisadores independentes para realmente aceitar uma hipótese ou um modelo.

Então, acho que essa tortura de dados é boa, desde que você mantenha essa distinção em mente e se lembre do que está fazendo, em que estágio do processo científico você está. Você pode usar as fases da lua ou redefinir 2 + 2, desde que tenha uma validação independente dos dados. Para colocar em uma foto:

insira a descrição da imagem aqui

Infelizmente, existem aqueles que solicitam um microarray para arredondar um trabalho após várias experiências terem sido feitas e nenhuma história surgiu, com a esperança de que a análise de alto rendimento mostre algo. Ou eles estão confusos sobre todo o teste de hipótese versus coisa de geração.

janeiro
fonte

Suponho que alguém possa interpretar o que eu vi como "geração de hipóteses", mas o objetivo das manipulações de que estou falando é definitivamente publicar os resultados obtidos com os dados "torturados" e fazê-lo da maneira mais alta possível. diário de impacto que aceitará o trabalho. Escusado será dizer que esses documentos nunca trazem nenhuma sugestão das origens torturadas de suas descobertas. De fato, AFAICT, os autores não se incomodam com isso. E, no entanto, acho que a maioria dos leitores de tais papéis seriam fortemente descontar os resultados se eles sabiam exatamente o quanto de dados de tortura foi para fazê-los ...

KJo

11

@kjo: a geração de hipóteses é parte do processo científico que definitivamente pode ser publicado. Então isso não é motivo.

Cbeleites suporta Monica

@ Janeiro: você esqueceu de mencionar o DoE "colete todas as amostras que conseguirmos - elas serão muito poucas" - que é o DoE mais frequente que encontro.

Cbeleites suporta Monica

@ cbeleites: bem, eu não sonharia em criticar essa atitude em geral; geralmente os experimentos poderiam se beneficiar de um número maior de repetições. Mas concordo que muitas vezes os experimentalistas tendem a incluir o máximo possível de condições (tipos de amostras, deformações, variantes, classes etc.) fisicamente possíveis, tornando a análise um pesadelo e, às vezes, obscurecendo totalmente a questão.

janeiro

12

Herman Friedman, meu professor favorito na pós-graduação, costumava dizer que

"se você não está surpreso, você não aprendeu nada"

A prevenção rigorosa de qualquer coisa, exceto o teste mais rigoroso de hipóteses definidas a priori, limita severamente sua capacidade de ser surpreendido.

Eu acho que o principal é que somos honestos sobre o que estamos fazendo. Se estamos em um modo altamente exploratório, deveríamos dizer isso. No extremo oposto, um professor que eu conheço disse a sua aluna para mudar suas hipóteses, pois as originais não foram consideradas significativas.

Peter Flom - Restabelece Monica
fonte

4

Nada de errado em testar rigorosamente hipóteses definidas a priori e espionar os mesmos dados para sugerir as próximas hipóteses definidas a priori a serem rigorosamente testadas. E se estamos em um modo ainda que ligeiramente exploratório, devemos dizer isso - basta dizer o que realmente fizemos - e deixar que os outros decidam exatamente com que tamanho uma pitada de sal desejam obter nossos resultados, por mais convencidos de sua validade que possamos estar. nós mesmos. Gostaria de dar a essa resposta mais de um voto para enfatizar a honestidade.

Scortchi - Restabelece Monica

7

Deixe-me acrescentar alguns pontos:

Em primeiro lugar, a geração de hipóteses é uma parte importante da ciência. E resultados não preditivos (exploratórios / descritivos) podem ser publicados.
IMHO, o problema não é, por si só, que a exploração de dados seja usada em um conjunto de dados e apenas partes dessas descobertas sejam publicadas. Os problemas são
- não descrevendo quanto foi experimentado
- tirando conclusões como se o estudo fosse um estudo de validação para algum modelo preditivo / um estudo de teste de hipóteses
A ciência e o desenvolvimento de métodos são processos iterativos de uma maneira muito mais geral do que apenas geração de hipóteses - testes - gerando novas hipóteses - testes ... IMHO é uma questão de julgamento profissional que tipo de conduta adequada é necessária em que estágio (ver exemplo abaixo).

O que eu faço:

tente conscientizar as pessoas sobre o viés otimista que resulta
Quando eu tenho uma chance, também mostro às pessoas quanta diferença isso faz (possível principalmente com um nível mais baixo do mesmo problema, por exemplo, compare dados validados independentemente do paciente com desempenho interno) estimativas de rotinas de otimização de hiperparâmetros, como pesquisa na grade para paraters SVM, "modelos combinados" como PCA-LDA e assim por diante. Não é realmente viável para a dragagem de dados reais, porque até agora ninguém me deu o dinheiro para fazer uma verdadeira réplica de um estudo de tamanho sensato ...)
para trabalhos dos quais sou co-autor: insisto em discutir as limitações das conclusões. Certifique-se de que as conclusões não sejam formuladas de maneira mais geral do que o estudo permite.
Incentive os colegas de trabalho a usar seu conhecimento especializado sobre o assunto do estudo e o processo de geração de dados para decidir como tratar os dados em vez de realizar uma otimização cara (em termos do tamanho da amostra que você precisa fazer isso adequadamente) parâmetros de modelo "hiper" (como que tipo de pré-processamento usar).
em paralelo: tente conscientizar as pessoas sobre o quão dispendioso esse negócio de otimização é se for feito corretamente (se isso é chamado de exploração ou não, é irrelevante; se for feito de forma errada, terá resultados semelhantes como a dragagem de dados), por exemplo , Beleites, C. e Neugebauer , U. e Bocklitz, T. e Krafft, C. e Popp, J .: Planejamento de tamanho de amostra para modelos de classificação. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceito no arXiv: 1211.1323
Aqui está um estudo que mostra que essa tentativa cega também costuma ser inútil, por exemplo,
J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: rompendo com as tendências do pré-processamento ?, TrAC Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
(eles tentaram um grande número de combinações de etapas de pré-processamento e descobriram que muito poucos levam a modelos melhores do que nenhum pré-processamento)
Enfatize que não estou torturando meus dados mais do que o necessário:
exemplo :

Todo o pré-processamento foi decidido exclusivamente usando conhecimento espectroscópico, e nenhum pré-processamento orientado a dados foi realizado.

Um artigo de acompanhamento usando os mesmos dados do exemplo para (diferente) desenvolvimento da teoria lê

Todo o pré-processamento foi decidido pelo conhecimento espectroscópico, nenhuma etapa orientada a dados foi incluída e nenhuma otimização de parâmetro foi realizada. No entanto, verificamos que uma projeção PLS [45] dos espectros em 25 variáveis latentes como pré-processamento para treinamento de RL não levou a mais do que pequenas alterações na previsão (veja a figura suplementar S.2).

Porque, enquanto isso, fui explicitamente convidado (em uma conferência por um editor da revista CILS) a comparar os modelos com o pré-processamento do PLS.
Tenha um ponto de vista prático: por exemplo, no estudo de astrocitoma vinculado acima, é claro que ainda decidi alguns pontos depois de analisar os dados (como qual limiar de intensidade corresponde às medições realizadas fora da amostra - que foram descartadas). Outras decisões que eu sei não serem críticas (linha de base linear versus quadrática: minha experiência com esse tipo de dados sugere que isso realmente não muda muito - o que também está em perfeita concordância com o que Jasper Engel encontrou em diferentes dados de tipo semelhante, portanto Eu não esperaria que houvesse um grande preconceito ao decidir o tipo de linha de base, observando os dados (o artigo argumenta por que isso é sensato).
Com base no estudo que fizemos, agora podemos dizer o que deve ser abordado a seguir e o que deve ser alterado. E como ainda estamos em uma etapa relativamente inicial do desenvolvimento do método (observando amostras ex vivo ), não vale a pena passar por toda a "lição de casa" que será necessária antes que o método possa ser usado in vivo . Por exemplo, no estágio atual da classificação do astrocitoma, a validação da reamostragem é uma escolha mais sensata do que o conjunto de testes externo. Eu ainda enfatizo que um estudo de validação verdadeiramente externo será necessário em algum momento, porque algumas características de desempenho só podem ser medidas dessa maneira (por exemplo, os efeitos de desvio / comprovação de instrumentos que podemos corrigir por eles). Mas agora, enquanto ainda estamos jogando com ex-vivoamostras e estão resolvendo outras partes do grande problema (nos artigos vinculados: como lidar com casos limítrofes), o ganho de conhecimento útil de um estudo de validação ex vivo adequado é muito baixo para valer a pena o esforço (IMHO: a menos que que foram feitas para medir o viés devido à dragagem de dados).
Certa vez, li um argumento sobre padrões estatísticos e de relatórios, e se isso deveria ser considerado necessário para um periódico (não me lembro qual) que me convenceu: a idéia expressa era que não havia necessidade de os editores tentarem concordar e aplicar algum padrão (o que causará muita discussão fútil) porque:
- quem usa as técnicas apropriadas geralmente está muito ciente / orgulhoso disso e, portanto, deve (e deve) relatar em detalhes o que foi feito.
- Se um certo ponto (por exemplo, dragagem de dados, validação não independente no nível do paciente) não estiver claramente definido, a suposição padrão para revisores / leitores é que o estudo não aderiu aos princípios adequados nessa pergunta (possivelmente porque eles não não sei melhor)

cbeleites suporta Monica
fonte

4

Às vezes, as coisas que você vê como "tortura de dados" não são realmente. Nem sempre é claro de antemão exatamente o que você fará com os dados para fornecer o que você acredita serem os resultados genuínos do experimento até vê-los.

Por exemplo, com os dados do tempo de reação para uma tarefa de decisão, geralmente você deseja rejeitar momentos que não são sobre a decisão (ou seja, quando eles estão indo tão rápido que obviamente estão apenas adivinhando e não estão tomando uma decisão). Você pode plotar a precisão da decisão contra a RT para ver onde geralmente ocorre a suposição. Mas até você testar esse paradigma em particular, você não tem como saber onde estão os pontos de corte (com o tempo, sem precisão). Para alguns observadores, esse procedimento parece torturar os dados, mas desde que não tenha nada diretamente a ver com os testes de hipóteses (você não o está ajustando com base nos testes), ele não está torturando os dados.

A espionagem de dados durante um experimento é válida desde que seja feita da maneira correta. Provavelmente, é antiético colocar seu experimento em uma caixa preta e fazer a análise apenas quando o número planejado de assuntos tiver sido executado. Às vezes, é difícil dizer que há problemas com o experimento até que você analise os dados e analise alguns o mais rápido possível. A espreita de dados é fortemente depreciada porque equivale a ver se p <0,05 e decidir continuar. Mas existem muitos critérios pelos quais você pode decidir continuar coletando que não faz nada prejudicial às suas taxas de erro.

Digamos que você deseja garantir que sua estimativa de variação esteja dentro de um intervalo provável conhecido. Amostras pequenas podem ter estimativas de variação bastante distantes, para que você colete dados extras até saber que a amostra é mais representativa. Na simulação a seguir, espero que a variação em cada condição seja 1. Vou fazer algo realmente louco e provar cada grupo independentemente por 10 amostras e depois adicionar assuntos até que a variação esteja próxima de 1.

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

Então, acabei ficando louco com a amostragem e aproximando minhas variações do esperado e ainda não afeto muito o alfa (é um pouco abaixo de 0,05). Mais algumas restrições, como os Ns, devem ser iguais em cada grupo e não podem ter mais que 30 e o alfa está praticamente correto em 0,05. Mas e o SE? E se eu tentasse tornar o SE um determinado valor? Essa é realmente uma ideia realmente interessante, porque, por sua vez, defino a largura do IC antecipadamente (mas não o local).

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

Mais uma vez, o alfa mudou uma pequena quantidade, embora eu tenha permitido que os N's percorram até 46 os 10 originais com base na espionagem de dados. Mais importante, todos os SE caem em uma faixa estreita em cada um dos experimentos. É fácil fazer um pequeno ajuste alfa para corrigir isso, se for uma preocupação. O ponto é que alguns bisbilhoteiros fazem pouco ou nenhum mal e podem até trazer benefícios.

(BTW, o que estou mostrando não é uma bala mágica. Na verdade, você não reduz o número de assuntos a longo prazo, porque a energia para a simulação de N variada é quase a mesma que para uma simulação da média de N )

Nenhuma das opções acima contradiz a literatura recente sobre a adição de sujeitos após o início de um experimento. Nesses estudos, eles analisaram simulações nas quais você adicionou sujeitos após fazer um teste de hipótese, a fim de obter o valor p mais baixo. Isso ainda é ruim e pode aumentar extraordinariamente o alfa. Além disso, gosto muito das respostas de janeiro e de Peter Flom. Eu só queria ressaltar que olhar para os dados enquanto você os coleta e até alterar um N planejado durante a coleta não são necessariamente coisas ruins.

John
fonte

Nenhuma dessas coisas é "boa" no sentido de não afetar a distribuição de amostragem de suas estatísticas de teste. Respostas perfeitamente sensatas às surpresas, é claro (cf. resposta de Peter), mas elas diluem um pouco a natureza confirmatória de seu experimento, aumentando os 'graus de liberdade do pesquisador'. É precisamente para evitar surpresas, que realizamos estudos-piloto para corrigir o protocolo e definir regras de parada antecipadamente, levando-as em consideração na análise. O objetivo é um procedimento bem definido que possa ser replicado independentemente para demonstrar a validade dos seus resultados.

Scortchi - Restabelece Monica

Você pode se sentir livre para executar as simulações, mas ter uma regra de parada baseada em variação (acima de um N mínimo razoável) não terá impacto no alfa e gerará a potência esperada. Você pode até ter uma regra de parada baseada em SE e obter SEs consistentes e esses não afetarão alfa ou beta. Você simplesmente não pode ter uma pregra de parada baseada. Todas as críticas à modificação de N referem-se a fazê-lo após um teste de hipótese (deve haver outras coisas também incluídas). Existe o potencial de isso causar tentação ... mas estou ignorando isso.

John John

Quanto à distribuição do tempo de reação, você está sugerindo que é melhor escolher um ponto de corte fixo com base em um piloto do que descobrir quando cada sujeito está tentando adivinhar com base na regressão logística e usar seu próprio ponto de corte? (é claro que o ponto de corte de precisão é fixo, mas não o tempo de reação).

John John

(1) Regra de parada baseada em variância: afeta a estimativa de variância e, portanto, pode afetar as taxas de erro quando o experimento é analisado como se o tamanho da amostra tivesse sido previamente fixado. Há uma tensão entre a advertência de "além de um N mínimo razoável" dada em seu comentário e os "tamanhos pequenos de amostra" mencionados em sua resposta; sem dúvida, você tem a estatística necessária para saber quais aproximações são boas o suficiente quando, mas nem todo mundo sabe. De maneira mais geral, uma abordagem inatacável é definir claramente a regra de parada antes do experimento.

Scortchi - Restabelecer Monica

(2) Distribuição do tempo de reação: Não (embora eu tenha tido algo em mente); Eu estava sugerindo que qualquer que fosse o método usado para remover observações não confiáveis, ele seria melhor desenvolvido a partir de um estudo piloto e depois aplicado em um experimento confirmatório.

Scortchi - Restabelece Monica

0

Este é realmente um problema cultural de pensamento desequilibrado, em que o viés de publicação leva a favorecer resultados positivos e nossa natureza competitiva exige que editores e pesquisadores produzam resultados de interesse novos ou controversos, por exemplo, no sentido de refutar os resultados de outra pessoa. Na pesquisa médica, há um progresso considerável para corrigir esse problema pelo registro obrigatório de ensaios e publicação de resultados com registros de ensaios abandonados, que também devem ser divulgados. Entendo que, como a publicação em periódicos para pesquisas malsucedidas pode não ser praticável, há planos de manter um banco de dados disponível publicamente. Resultados incomuns que não podem ser replicados não são necessariamente resultado de contravenção, como talvez com 50,

Usar métodos diferentes também não é necessariamente uma solução. Por exemplo, que químico misturaria reagentes de maneiras diferentes em condições diferentes e esperaria os mesmos resultados como um curso natural?

Robert Jones
fonte

“Exploração” de dados versus “bisbilhotando” / “torturando”?

Respostas: