Sou muito novo em estatística e só estou aprendendo a entender o básico, incluindo os valores de . Mas há um enorme ponto de interrogação em minha mente agora e eu meio que espero que meu entendimento esteja errado. Aqui está o meu processo de pensamento:
Não são todas as pesquisas em todo o mundo um pouco como os macacos no "teorema do macaco infinito"? Considere que existem 23887 universidades no mundo. Se cada universidade tem 1000 estudantes, são 23 milhões de estudantes por ano.
Digamos que a cada ano, cada aluno faça pelo menos uma pesquisa, usando o teste de hipóteses com .
Isso não significa que, mesmo que todas as amostras da pesquisa fossem retiradas de uma população aleatória, cerca de 5% delas "rejeitaria a hipótese nula como inválida". Uau. Pense sobre isso. São cerca de um milhão de trabalhos de pesquisa por ano publicados devido a resultados "significativos".
Se é assim que funciona, isso é assustador. Isso significa que grande parte da "verdade científica" que tomamos como certa é baseada em pura aleatoriedade.
Um simples pedaço de código R parece apoiar meu entendimento:
library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]
O mesmo acontece com este artigo no sucesso -Pesca: Eu enganei Milhões em pensar Chocolate ajuda a perder peso. Aqui está como .
Isso é realmente tudo o que existe? É assim que a "ciência" deve funcionar?
fonte
Respostas:
Esta é certamente uma preocupação válida, mas não está bem.
Se 1.000.000 de estudos forem realizados e todas as hipóteses nulas forem verdadeiras , aproximadamente 50.000 terão resultados significativos em p <0,05. É isso que um valor de p significa. No entanto, o nulo é essencialmente nunca estritamente verdadeiro. Mas, mesmo que o afastemos de "quase verdadeiro" ou "quase certo" ou algo assim, isso significaria que os 1.000.000 de estudos teriam que ser sobre coisas como
e assim por diante. Absurdo.
Um problema, é claro, é que não sabemos quais nulos são verdadeiros. Outro problema é o que Glen_b mencionou em seu comentário - o problema da gaveta de arquivos.
É por isso que gosto tanto das idéias de Robert Abelson que ele expõe em Estatística como argumento de princípio . Ou seja, a evidência estatística deve fazer parte de um argumento de princípio sobre o motivo pelo qual algo é o caso e deve ser julgado pelos critérios do MAGIC:
fonte
Lembre-se, os cientistas NÃO são criticamente como macacos infinitos, porque o seu comportamento de pesquisa - particularmente a experimentação - é tudo, menos aleatório. As experiências são (pelo menos deveria ser) manipulações e medições incrivelmente cuidadosamente controladas, baseadas em hipóteses mecanicamente informadas que se baseiam em um grande corpo de pesquisas anteriores. Eles não são apenas fotos aleatórias no escuro (ou dedos de macaco em máquinas de escrever).
Essa estimativa para o número de resultados de pesquisas publicadas deve estar muito distante. Não sei se existem 23 milhões de "estudantes universitários" (isso inclui apenas universidades ou faculdades também?) No mundo, mas sei que a grande maioria deles nunca publica descobertas científicas. Quero dizer, a maioria deles não é especialista em ciências, e mesmo a maioria deles nunca publica descobertas.
Uma estimativa mais provável (algumas discussões ) para o número de publicações científicas a cada ano é de cerca de 1-2 milhões.
Lembre-se de que nem todas as pesquisas publicadas têm estatísticas em que a significância é correta no valor de p = 0,05. Muitas vezes, vemos valores de p como p <0,01 ou mesmo p <0,001. Não sei qual é o valor p "médio" de mais de um milhão de papéis, é claro.
Também tenha em mente, os cientistas estão realmente não deveria ter um pequeno número de resultados em p em torno de 0,05 como "verdade científica". Nem mesmo perto. Os cientistas devem integrar muitos estudos, cada um dos quais com poder estatístico apropriado, mecanismo plausível, reprodutibilidade, magnitude do efeito, etc., e incorporar isso em um modelo experimental de como funciona um fenômeno.
Mas, isso significa que quase toda a ciência está correta? De jeito nenhum. Os cientistas são humanos e são vítimas de preconceitos, má metodologia de pesquisa (incluindo abordagens estatísticas inadequadas), fraude, erro humano simples e má sorte. Provavelmente mais dominantes no motivo pelo qual uma porção saudável da ciência publicada está errada são esses fatores, e não a convenção p <0,05. De fato, vamos direto ao assunto e faça uma declaração ainda mais "assustadora" do que a que você apresentou:
Por que a maioria dos resultados de pesquisa publicados é falsa
fonte
Veja, por exemplo, esta recente discussão de um artigo de 2014 de David Colquhoun: Confusão com taxa de descoberta falsa e testes múltiplos (em Colquhoun 2014) . Eu tenho argumentado contra essa estimativa de "pelo menos 30%", mas concordo que em alguns campos de pesquisa a taxa de falsas descobertas pode ser muito superior a 5%. Isso é realmente preocupante.
Eu não acho que dizer que nulo quase nunca seja verdade ajuda aqui; Os erros do tipo S e do tipo M (como introduzidos por Andrew Gelman) não são muito melhores que os erros do tipo I / II.
Eu acho que o que realmente significa é que nunca se deve confiar em um resultado "significativo" isolado.
fonte
Sua preocupação é exatamente a que está subjacente a grande parte da discussão atual na ciência sobre reprodutibilidade. No entanto, o verdadeiro estado das coisas é um pouco mais complicado do que você sugere.
Primeiro, vamos estabelecer alguma terminologia. O teste de significância de hipótese nula pode ser entendido como um problema de detecção de sinal - a hipótese nula é verdadeira ou falsa e você pode optar por rejeitá-la ou retê-la. A combinação de duas decisões e dois possíveis "verdadeiros" estados de coisas resulta na tabela a seguir, que a maioria das pessoas vê em algum momento quando está aprendendo estatísticas pela primeira vez:
Os cientistas que usam testes de significância de hipótese nula estão tentando maximizar o número de decisões corretas (mostradas em azul) e minimizar o número de decisões incorretas (mostradas em vermelho). Os cientistas que trabalham também estão tentando publicar seus resultados para conseguir empregos e avançar em suas carreiras.
Viés de publicação
Graus de liberdade do pesquisador
É importante observar que o uso indevido dos graus de liberdade dos pesquisadores (que às vezes é conhecido como uma prática de pesquisa questionável; Martinson, Anderson e de Vries, 2005 ) não é o mesmo que compor dados. Em alguns casos, excluir discrepantes é a coisa certa a fazer, porque o equipamento falha ou por algum outro motivo. A questão principal é que, na presença de graus de liberdade do pesquisador, as decisões tomadas durante a análise geralmente dependem de como os dados são gerados ( Gelman & Loken, 2014), mesmo que os pesquisadores em questão não estejam cientes desse fato. Enquanto os pesquisadores usarem os graus de liberdade do pesquisador (consciente ou inconscientemente) para aumentar a probabilidade de um resultado significativo (talvez porque resultados significativos sejam mais "publicáveis"), a presença de graus de liberdade do pesquisador superpovoará uma literatura de pesquisa com falsos positivos em da mesma maneira que o viés de publicação.
Uma ressalva importante para a discussão acima é que trabalhos científicos (pelo menos em psicologia, que é o meu campo) raramente consistem em resultados únicos. Mais comuns são vários estudos, cada um dos quais envolve vários testes - a ênfase está na construção de um argumento maior e na exclusão de explicações alternativas para as evidências apresentadas. No entanto, a apresentação seletiva de resultados (ou a presença de graus de liberdade do pesquisador) pode produzir viés em um conjunto de resultados tão facilmente quanto um único resultado. Há evidências de que os resultados apresentados em documentos de vários estudos são geralmente muito mais limpos e mais fortes do que se esperaria, mesmo que todas as previsões desses estudos fossem verdadeiras ( Francis, 2013 ).
Conclusão
Fundamentalmente, concordo com sua intuição de que o teste de significância de hipótese nula pode dar errado. No entanto, eu argumentaria que os verdadeiros culpados que produzem uma alta taxa de falsos positivos são processos como o viés de publicação e a presença de graus de liberdade dos pesquisadores. De fato, muitos cientistas estão bem cientes desses problemas, e melhorar a reprodutibilidade científica é um tópico atual de discussão muito ativo (por exemplo, Nosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 ). Então você está em boa companhia com suas preocupações, mas também acho que há razões para algum otimismo cauteloso.
Referências
Stern, JM, & Simes, RJ (1997). Viés de publicação: Evidência de publicação tardia em um estudo de coorte de projetos de pesquisa clínica. BMJ, 315 (7109), 640-645. http://doi.org/10.1136/bmj.315.7109.640
Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E., ... Williamson, PR (2008). Revisão sistemática da evidência empírica do viés de publicação do estudo e viés de relato de resultados. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081
Rosenthal, R. (1979). O problema da gaveta de arquivos e a tolerância para resultados nulos. Boletim Psicológico, 86 (3), 638-641. http://doi.org/10.1037/0033-2909.86.3.638
Simmons, JP, Nelson, LD, e Simonsohn, U. (2011). Psicologia falso-positiva: A flexibilidade não revelada na coleta e análise de dados permite apresentar algo tão significativo. Psychological Science, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632
Martinson, BC, Anderson, MS, & de Vries, R. (2005). Cientistas se comportando mal. Nature, 435, 737-738. http://doi.org/10.1038/435737a
Gelman, A. & Loken, E. (2014). A crise estatística na ciência. American Scientist, 102, 460-465.
Francis, G. (2013). Replicação, consistência estatística e viés de publicação. Jornal de Psicologia Matemática, 57 (5), 153-169. http://doi.org/10.1016/j.jmp.2013.02.003
Nosek, BA, & Bar-Anan, Y. (2012). Utopia científica: I. Abertura da comunicação científica. Psychological Inquiry, 23 (3), 217-243. http://doi.org/10.1080/1047840X.2012.692215
Nosek, BA, Spies, JR e Motyl, M. (2012). Utopia científica: II. Reestruturar incentivos e práticas para promover a verdade sobre a publicabilidade. Perspectives on Psychological Science, 7 (6), 615-631. http://doi.org/10.1177/1745691612459058
fonte
Uma verificação substancial da questão importante levantada nesta questão é que a "verdade científica" não se baseia em publicações isoladas e individuais. Se um resultado for suficientemente interessante, levará outros cientistas a buscar as implicações do resultado. Esse trabalho tenderá a confirmar ou refutar a descoberta original. Pode haver uma chance de 1/20 de rejeitar uma hipótese nula verdadeira em um estudo individual, mas apenas 1/400 de fazê-lo duas vezes seguidas.
Se os cientistas simplesmente repetissem os experimentos até encontrarem "significado" e depois publicassem seus resultados, o problema poderia ser tão grande quanto o OP sugere. Mas não é assim que a ciência funciona, pelo menos nos meus quase 50 anos de experiência em pesquisa biomédica. Além disso, uma publicação raramente trata de um único experimento "significativo", mas baseia-se em um conjunto de experimentos inter-relacionados (cada um deve ser "significativo" por si só) que juntos fornecem suporte para uma hipótese substantiva mais ampla.
Um problema muito maior vem de cientistas comprometidos demais com suas próprias hipóteses. Eles então podem interpretar demais as implicações de experimentos individuais para apoiar suas hipóteses, se engajar na edição de dados duvidosos (como remover arbitrariamente valores discrepantes) ou (como eu já vi e ajudei a capturar) apenas compor os dados.
A ciência, no entanto, é um processo altamente social, independentemente da mitologia sobre cientistas loucos se escondendo no alto de torres de marfim. A troca entre milhares de cientistas que buscam seus interesses, com base no que aprenderam com o trabalho de outros, é a proteção institucional definitiva contra falsos positivos. Às vezes, falsas descobertas podem ser perpetuadas por anos, mas se uma questão for suficientemente importante, o processo acabará por identificar as conclusões errôneas.
fonte
Apenas para adicionar à discussão, aqui está um post interessante e uma discussão subsequente sobre como as pessoas geralmente entendem mal o valor-p.
O que deve ser mantido em qualquer caso é que um valor-p é apenas uma medida da força da evidência na rejeição de uma dada hipótese. Um valor p definitivamente não é um limite rígido abaixo do qual algo é "verdadeiro" e acima do qual é apenas devido ao acaso. Conforme explicado no post mencionado acima:
fonte
Como também apontado nas outras respostas, isso só causará problemas se você considerar seletivamente os resultados positivos nos quais a hipótese nula é descartada. É por isso que os cientistas escrevem artigos de revisão onde consideram resultados de pesquisa publicados anteriormente e tentam desenvolver uma melhor compreensão do assunto com base nisso. No entanto, ainda resta um problema, devido ao chamado "viés de publicação", ou seja, é mais provável que os cientistas escrevam um artigo sobre um resultado positivo do que sobre um resultado negativo, e também sobre um resultado negativo. maior probabilidade de ser rejeitado para publicação do que um artigo com resultado positivo.
Especialmente em áreas onde os testes estatísticos são muito importantes, isso será um grande problema, o campo da medicina é um exemplo notório. Por isso, tornou-se obrigatório registrar os ensaios clínicos antes de serem realizados (por exemplo, aqui ). Portanto, você deve explicar a configuração, como a análise estatística será realizada, etc., etc., antes que o julgamento comece. As principais revistas médicas se recusarão a publicar artigos se os ensaios que eles reportarem não estiverem registrados.
Infelizmente, apesar dessa medida, o sistema não está funcionando tão bem .
fonte
Isso está próximo de um fato muito importante sobre o método científico: enfatiza a falsificabilidade. A filosofia da ciência que é mais popular hoje em dia tem o conceito de falsificabilidade de Karl Popper como uma pedra angular.
O processo científico básico é assim:
Qualquer um pode reivindicar qualquer teoria que quiser, a qualquer momento. A ciência admitirá qualquer teoria que seja "falsificável". O sentido mais literal dessa palavra é que, se alguém não gostar da alegação, ela é livre para gastar os recursos para refutar a alegação. Se você acha que as meias argyle curam o câncer, você pode usar sua própria ala médica para refutá-lo.
Como essa barra de entrada é monumentalmente baixa, é tradicional que a "Ciência", como grupo cultural, não receba nenhuma idéia até que você tenha feito um "bom esforço" para falsificar sua própria teoria.
A aceitação de idéias tende a ocorrer por etapas. Você pode inserir seu conceito em um artigo de revista com um estudo e um valor p bastante baixo. O que isso compra é publicidade e alguma credibilidade. Se alguém estiver interessado em sua ideia, como se sua ciência tiver aplicativos de engenharia, eles poderão usá-la. Naquele momento, é mais provável que eles financiem uma rodada adicional de falsificação.
Esse processo segue em frente, sempre com a mesma atitude: acredite no que você quer, mas, para chamá-lo de ciência, preciso refutá-lo mais tarde.
Essa barra baixa de entrada é o que permite que ela seja tão inovadora. Então, sim, há um grande número de artigos de periódicos teoricamente "errados" por aí. No entanto, a chave é que todo artigo publicado é teoricamente falsificável; portanto, a qualquer momento, alguém pode gastar o dinheiro para testá-lo.
Essa é a chave: os periódicos contêm não apenas coisas que passam em um teste-p razoável, mas também contêm as chaves para que outros o desmonte se os resultados forem falsos.
fonte
É assim que muitas ciências sociais funcionam. Não há muito com ciências físicas. Pense nisso: você digitou sua pergunta em um computador. As pessoas foram capazes de construir essas bestas complicadas, chamadas computadores, usando o conhecimento da física, química e outros campos das ciências físicas. Se a situação fosse tão ruim quanto você descreve, nenhum dos componentes eletrônicos funcionaria. Ou pense nas coisas como uma massa de elétron, conhecida com precisão insana. Eles passam por bilhões de portas lógicas em um computador por mais de uma vez, e seu computador ainda funciona e funciona por anos.
ATUALIZAÇÃO: Para responder aos votos que recebi, me senti inspirado a dar alguns exemplos.
O primeiro é da física: Bystritsky, VM, et al. " Medindo os fatores S astrofísicos e as seções transversais da reação p (d, γ) 3He na região de energia ultra baixa, usando um alvo de deuterido de zircônio ". Física de partículas e núcleos Letters 10.7 (2013): 717-722.
Meu próximo exemplo é de ... psicologia: Paustian-Underdahl, Samantha C., Lisa Slattery Walker e David J. Woehr. " Gênero e percepções da eficácia da liderança: uma meta-análise de moderadores contextuais ". Jornal de Psicologia Aplicada, 2014, vol. 99, nº 6, 1129 a 1145.
Agora, veja algumas tabelas de papéis e adivinhe de quais papéis eles são:
Essa é a resposta porque, em um caso, você precisa de estatísticas "legais" e, em outro, não: porque os dados são ruins ou não. Quando você tem bons dados, não precisa de muitas estatísticas além dos erros padrão.
UPDATE2: @ PatrickS.Forscher fez uma declaração interessante no comentário:
Eu devo discordar. Em Economia e Finanças, as teorias não são "brandas". Você pode procurar aleatoriamente um trabalho nesses campos e obter algo assim:
e assim por diante.
É de Schervish, Mark J., Teddy Seidenfeld e Joseph B. Kadane. " Extensões da teoria da utilidade esperada e algumas limitações das comparações aos pares ." (2003). Isso parece macio para você?
Estou reiterando meu argumento aqui de que quando suas teorias não são boas e os dados são ruins, você pode usar a matemática mais difícil e ainda obter um resultado ruim.
Neste artigo, eles estão falando sobre serviços públicos, o conceito de felicidade e satisfação - absolutamente inobservável. É como o que é uma utilidade de ter uma casa versus comer um hambúrguer de queijo? Presumivelmente, existe essa função, na qual você pode conectar "comer cheeseburger" ou "morar na própria casa" e a função cuspirá a resposta em algumas unidades. Por mais louco que pareça, é nisso que a ecnômica moderna se baseia, graças a von Neuman.
fonte