É realmente assim que os valores-p funcionam? Um milhão de trabalhos de pesquisa por ano pode ser baseado em pura aleatoriedade?

98

Sou muito novo em estatística e só estou aprendendo a entender o básico, incluindo os valores de . Mas há um enorme ponto de interrogação em minha mente agora e eu meio que espero que meu entendimento esteja errado. Aqui está o meu processo de pensamento:p

Não são todas as pesquisas em todo o mundo um pouco como os macacos no "teorema do macaco infinito"? Considere que existem 23887 universidades no mundo. Se cada universidade tem 1000 estudantes, são 23 milhões de estudantes por ano.

Digamos que a cada ano, cada aluno faça pelo menos uma pesquisa, usando o teste de hipóteses com .α=0.05

Isso não significa que, mesmo que todas as amostras da pesquisa fossem retiradas de uma população aleatória, cerca de 5% delas "rejeitaria a hipótese nula como inválida". Uau. Pense sobre isso. São cerca de um milhão de trabalhos de pesquisa por ano publicados devido a resultados "significativos".

Se é assim que funciona, isso é assustador. Isso significa que grande parte da "verdade científica" que tomamos como certa é baseada em pura aleatoriedade.

Um simples pedaço de código R parece apoiar meu entendimento:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

O mesmo acontece com este artigo no sucesso -Pesca: Eu enganei Milhões em pensar Chocolate ajuda a perder peso. Aqui está como .p

Isso é realmente tudo o que existe? É assim que a "ciência" deve funcionar?

n_mu_sigma
fonte
31
O verdadeiro problema é potencialmente muito pior do que multiplicar o número de nulos verdadeiros pelo nível de significância, devido à pressão para encontrar significância (se um periódico importante não publicar resultados não significativos, ou um árbitro rejeitar um artigo que não o faça) tenha resultados significativos, há pressão para encontrar uma maneira de alcançar significado ... e nós vemos expedições de "caça ao significado" em muitas perguntas aqui); isso pode levar a verdadeiros níveis de significância muito mais altos do que parecem.
21915 Glenbrook
5
Por outro lado, muitas hipóteses nulas são nulas de ponto, e essas raramente são verdadeiras.
21915 Glen_b
37
Por favor, não confunda o método científico com valores-p. Entre outras coisas, a ciência insiste na reprodutibilidade . É assim que os trabalhos sobre, digamos, a fusão a frio podem ser publicados (em 1989), mas a fusão a frio não existe como uma teoria científica sustentável no último quarto de século. Observe também que poucos cientistas estão interessados ​​em trabalhar em áreas onde a hipótese nula relevante é realmente verdadeira . Portanto, sua hipótese de que "todas as amostras de pesquisa foram extraídas de uma população aleatória" não reflete nada realista.
whuber
13
Referência obrigatória ao desenho animado xkcd jelly beans . Resposta curta - infelizmente isso está acontecendo com muita frequência e agora algumas revistas estão insistindo em que um estatístico revise todas as publicações para reduzir a quantidade de pesquisas "significativas" que chegam ao domínio público. Lotes de respostas relevantes e comentários nesta discussão anterior
Floris
8
Talvez eu não receba a reclamação ... "Derrotamos com sucesso 95% das hipóteses falsas. Os 5% restantes não foram tão fáceis de derrotar devido a flutuações aleatórias que pareciam efeitos significativos. Devemos olhar mais de perto e ignorar as outros 95%. " Isso soa exatamente como o tipo certo de comportamento para algo como "ciência".
Eric Towers

Respostas:

70

Esta é certamente uma preocupação válida, mas não está bem.

Se 1.000.000 de estudos forem realizados e todas as hipóteses nulas forem verdadeiras , aproximadamente 50.000 terão resultados significativos em p <0,05. É isso que um valor de p significa. No entanto, o nulo é essencialmente nunca estritamente verdadeiro. Mas, mesmo que o afastemos de "quase verdadeiro" ou "quase certo" ou algo assim, isso significaria que os 1.000.000 de estudos teriam que ser sobre coisas como

  • A relação entre número de segurança social e QI
  • O comprimento dos dedos dos pés está relacionado ao estado do seu nascimento?

e assim por diante. Absurdo.

Um problema, é claro, é que não sabemos quais nulos são verdadeiros. Outro problema é o que Glen_b mencionou em seu comentário - o problema da gaveta de arquivos.

É por isso que gosto tanto das idéias de Robert Abelson que ele expõe em Estatística como argumento de princípio . Ou seja, a evidência estatística deve fazer parte de um argumento de princípio sobre o motivo pelo qual algo é o caso e deve ser julgado pelos critérios do MAGIC:

  • Magnitude: Qual o tamanho do efeito?
  • Articulação: Está cheio de "ifs", "ands" e "buts" (isso é ruim)
  • Generalidade: Qual a sua aplicabilidade?
  • Interessante
  • Credibilidade: reivindicações incríveis exigem muitas evidências
Peter Flom
fonte
4
Poder-se-ia dizer "se estudos de 1 milhão de pessoas forem realizados e mesmo se todas as hipóteses nulas forem verdadeiras, aproximadamente 50.000 executarão o erro do tipo 1 e rejeitarão incorretamente a hipótese nula? Se um pesquisador obtiver p <0,05, apenas saberá que" h0 está correto . e um evento raro ocorreu ou h1 está incorreto" não há nenhuma maneira de dizer que é apenas olhando para os resultados deste um estudo, não é?
n_mu_sigma
5
Você só pode obter um falso positivo se o positivo for, de fato, falso. Se você selecionasse 40 IVs que eram todos barulho, teria uma boa chance de um erro do tipo I. Mas geralmente escolhemos IVs por um motivo. E o nulo é falso. Você não pode cometer um erro do tipo I se o nulo for falso.
Peter Flom
6
Eu não entendo o seu segundo parágrafo, incluindo os pontos de bala. Digamos, por uma questão de argumento, todos os 1 milhão de estudos estavam testando compostos de drogas para curar uma condição específica. A hipótese nula para cada um desses estudos é que o medicamento não cura a condição. Então, por que isso deve ser "essencialmente nunca estritamente verdadeiro"? Além disso, por que você diz que todos os estudos teriam que ser sobre relacionamentos sem sentido, como ss # e QI? Obrigado por qualquer explicação adicional que possa me ajudar a entender seu ponto de vista.
Chelonian
11
Para tornar os exemplos do @ PeterFlom concretos: os três primeiros dígitos de um SSN (costumava) codificam o CEP do solicitante. Como os estados individuais têm dados demográficos um tanto diferentes e o tamanho do dedo do pé pode estar correlacionado com alguns fatores demográficos (idade, raça, etc.), é quase certo que existe uma relação entre o número da previdência social e o tamanho do dedo do pé - se houver dados suficientes.
27515 Matt Backett,
6
@MattKrause bom exemplo. Eu prefiro a contagem de dedos por sexo. Tenho certeza de que, se fizesse um censo de todos os homens e mulheres, descobriria que um gênero tem mais dedos em média do que o outro. Sem tirar uma amostra extremamente grande, não tenho idéia de qual gênero tem mais dedos. Além disso, duvido que, como fabricante de luvas, usaria dados de censo de dedos no design de luvas.
Emory
40

Não são todas as pesquisas em todo o mundo um pouco como os macacos do "teorema do macaco infinito"?

Lembre-se, os cientistas NÃO são criticamente como macacos infinitos, porque o seu comportamento de pesquisa - particularmente a experimentação - é tudo, menos aleatório. As experiências são (pelo menos deveria ser) manipulações e medições incrivelmente cuidadosamente controladas, baseadas em hipóteses mecanicamente informadas que se baseiam em um grande corpo de pesquisas anteriores. Eles não são apenas fotos aleatórias no escuro (ou dedos de macaco em máquinas de escrever).

Considere que existem 23887 universidades no mundo. Se cada universidade tem 1000 estudantes, são 23 milhões de estudantes por ano. Digamos que a cada ano, cada aluno faça pelo menos uma pesquisa,

Essa estimativa para o número de resultados de pesquisas publicadas deve estar muito distante. Não sei se existem 23 milhões de "estudantes universitários" (isso inclui apenas universidades ou faculdades também?) No mundo, mas sei que a grande maioria deles nunca publica descobertas científicas. Quero dizer, a maioria deles não é especialista em ciências, e mesmo a maioria deles nunca publica descobertas.

Uma estimativa mais provável (algumas discussões ) para o número de publicações científicas a cada ano é de cerca de 1-2 milhões.

Isso não significa que, mesmo que todas as amostras de pesquisa fossem retiradas de uma população aleatória, cerca de 5% delas "rejeitariam a hipótese nula como inválida". Uau. Pense nisso. São cerca de um milhão de trabalhos de pesquisa por ano publicados devido a resultados "significativos".

Lembre-se de que nem todas as pesquisas publicadas têm estatísticas em que a significância é correta no valor de p = 0,05. Muitas vezes, vemos valores de p como p <0,01 ou mesmo p <0,001. Não sei qual é o valor p "médio" de mais de um milhão de papéis, é claro.

Se é assim que funciona, isso é assustador. Isso significa que grande parte da "verdade científica" que tomamos como certa é baseada em pura aleatoriedade.

Também tenha em mente, os cientistas estão realmente não deveria ter um pequeno número de resultados em p em torno de 0,05 como "verdade científica". Nem mesmo perto. Os cientistas devem integrar muitos estudos, cada um dos quais com poder estatístico apropriado, mecanismo plausível, reprodutibilidade, magnitude do efeito, etc., e incorporar isso em um modelo experimental de como funciona um fenômeno.

Mas, isso significa que quase toda a ciência está correta? De jeito nenhum. Os cientistas são humanos e são vítimas de preconceitos, má metodologia de pesquisa (incluindo abordagens estatísticas inadequadas), fraude, erro humano simples e má sorte. Provavelmente mais dominantes no motivo pelo qual uma porção saudável da ciência publicada está errada são esses fatores, e não a convenção p <0,05. De fato, vamos direto ao assunto e faça uma declaração ainda mais "assustadora" do que a que você apresentou:

Por que a maioria dos resultados de pesquisa publicados é falsa

Chelonian
fonte
10
Eu diria que Ioannidis está fazendo um argumento rigoroso que apóia a questão. A ciência não é feita de qualquer maneira, assim como os otimistas que respondem aqui parecem pensar. E muita pesquisa publicada nunca é replicada. Além disso, quando se tenta replicar, os resultados tendem a apoiar o argumento de Ioannidis de que muita ciência publicada é basicamente besteira.
Matt_black 19/07/2015
9
Pode ser interessante que, na física de partículas, nosso limite de valor-p para reivindicar uma descoberta seja 0,00000057.
David Z
2
E em muitos casos, não há valores de p. Matemática e física teórica são casos comuns.
22415 Davidmh
21

p

α

Veja, por exemplo, esta recente discussão de um artigo de 2014 de David Colquhoun: Confusão com taxa de descoberta falsa e testes múltiplos (em Colquhoun 2014) . Eu tenho argumentado contra essa estimativa de "pelo menos 30%", mas concordo que em alguns campos de pesquisa a taxa de falsas descobertas pode ser muito superior a 5%. Isso é realmente preocupante.

Eu não acho que dizer que nulo quase nunca seja verdade ajuda aqui; Os erros do tipo S e do tipo M (como introduzidos por Andrew Gelman) não são muito melhores que os erros do tipo I / II.

Eu acho que o que realmente significa é que nunca se deve confiar em um resultado "significativo" isolado.

α107α=0.05 ) e falta de previsões teóricas muito específicas.

p<0.05p

p<0.05

ameba
fonte
Re "valores cumulativos de p": você pode simplesmente multiplicar os valores individuais de p ou precisa fazer algumas combinações monstruosas para fazê-lo funcionar?
21715 Kevin
pαp
17

Sua preocupação é exatamente a que está subjacente a grande parte da discussão atual na ciência sobre reprodutibilidade. No entanto, o verdadeiro estado das coisas é um pouco mais complicado do que você sugere.

Primeiro, vamos estabelecer alguma terminologia. O teste de significância de hipótese nula pode ser entendido como um problema de detecção de sinal - a hipótese nula é verdadeira ou falsa e você pode optar por rejeitá-la ou retê-la. A combinação de duas decisões e dois possíveis "verdadeiros" estados de coisas resulta na tabela a seguir, que a maioria das pessoas vê em algum momento quando está aprendendo estatísticas pela primeira vez:

insira a descrição da imagem aqui

Os cientistas que usam testes de significância de hipótese nula estão tentando maximizar o número de decisões corretas (mostradas em azul) e minimizar o número de decisões incorretas (mostradas em vermelho). Os cientistas que trabalham também estão tentando publicar seus resultados para conseguir empregos e avançar em suas carreiras.

H0


H0

Viés de publicação

α

p - às vezes a hipótese nula de que um cientista afirma ser falso realmente será falsa, e, dependendo do grau de viés de publicação, algumas vezes um cientista afirma corretamente que uma determinada hipótese nula é verdadeira. No entanto, a literatura de pesquisa também será desordenada por uma proporção muito grande de falsos positivos (ou seja, estudos nos quais o pesquisador afirma que a hipótese nula é falsa quando realmente é verdadeira).

Graus de liberdade do pesquisador

αα. Dada a presença de um número suficientemente grande de práticas de pesquisa questionáveis, a taxa de falsos positivos pode chegar a 0,60, mesmo que a taxa nominal tenha sido fixada em 0,05 ( Simmons, Nelson & Simonsohn, 2011 ).

É importante observar que o uso indevido dos graus de liberdade dos pesquisadores (que às vezes é conhecido como uma prática de pesquisa questionável; Martinson, Anderson e de Vries, 2005 ) não é o mesmo que compor dados. Em alguns casos, excluir discrepantes é a coisa certa a fazer, porque o equipamento falha ou por algum outro motivo. A questão principal é que, na presença de graus de liberdade do pesquisador, as decisões tomadas durante a análise geralmente dependem de como os dados são gerados ( Gelman & Loken, 2014), mesmo que os pesquisadores em questão não estejam cientes desse fato. Enquanto os pesquisadores usarem os graus de liberdade do pesquisador (consciente ou inconscientemente) para aumentar a probabilidade de um resultado significativo (talvez porque resultados significativos sejam mais "publicáveis"), a presença de graus de liberdade do pesquisador superpovoará uma literatura de pesquisa com falsos positivos em da mesma maneira que o viés de publicação.


Uma ressalva importante para a discussão acima é que trabalhos científicos (pelo menos em psicologia, que é o meu campo) raramente consistem em resultados únicos. Mais comuns são vários estudos, cada um dos quais envolve vários testes - a ênfase está na construção de um argumento maior e na exclusão de explicações alternativas para as evidências apresentadas. No entanto, a apresentação seletiva de resultados (ou a presença de graus de liberdade do pesquisador) pode produzir viés em um conjunto de resultados tão facilmente quanto um único resultado. Há evidências de que os resultados apresentados em documentos de vários estudos são geralmente muito mais limpos e mais fortes do que se esperaria, mesmo que todas as previsões desses estudos fossem verdadeiras ( Francis, 2013 ).


Conclusão

Fundamentalmente, concordo com sua intuição de que o teste de significância de hipótese nula pode dar errado. No entanto, eu argumentaria que os verdadeiros culpados que produzem uma alta taxa de falsos positivos são processos como o viés de publicação e a presença de graus de liberdade dos pesquisadores. De fato, muitos cientistas estão bem cientes desses problemas, e melhorar a reprodutibilidade científica é um tópico atual de discussão muito ativo (por exemplo, Nosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 ). Então você está em boa companhia com suas preocupações, mas também acho que há razões para algum otimismo cauteloso.


Referências

Stern, JM, & Simes, RJ (1997). Viés de publicação: Evidência de publicação tardia em um estudo de coorte de projetos de pesquisa clínica. BMJ, 315 (7109), 640-645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E., ... Williamson, PR (2008). Revisão sistemática da evidência empírica do viés de publicação do estudo e viés de relato de resultados. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). O problema da gaveta de arquivos e a tolerância para resultados nulos. Boletim Psicológico, 86 (3), 638-641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD, e Simonsohn, U. (2011). Psicologia falso-positiva: A flexibilidade não revelada na coleta e análise de dados permite apresentar algo tão significativo. Psychological Science, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS, & de Vries, R. (2005). Cientistas se comportando mal. Nature, 435, 737-738. http://doi.org/10.1038/435737a

Gelman, A. & Loken, E. (2014). A crise estatística na ciência. American Scientist, 102, 460-465.

Francis, G. (2013). Replicação, consistência estatística e viés de publicação. Jornal de Psicologia Matemática, 57 (5), 153-169. http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, BA, & Bar-Anan, Y. (2012). Utopia científica: I. Abertura da comunicação científica. Psychological Inquiry, 23 (3), 217-243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, BA, Spies, JR e Motyl, M. (2012). Utopia científica: II. Reestruturar incentivos e práticas para promover a verdade sobre a publicabilidade. Perspectives on Psychological Science, 7 (6), 615-631. http://doi.org/10.1177/1745691612459058

Patrick S. Forscher
fonte
1
+1. Bela coleção de links. Aqui está um artigo muito relevante para a seção "Graus de liberdade do pesquisador": o jardim dos caminhos de bifurcação: por que várias comparações podem ser um problema, mesmo quando não há "expedição de pesca" ou "p-hacking" e a hipótese da pesquisa era postado com antecedência por Andrew Gelman e Eric Loken (2013).
Ameba
Obrigado, @amoeba, por essa referência interessante. Gosto especialmente do argumento de Gelman e Loken (2013) de que capitalizar os graus de liberdade dos pesquisadores não precisa ser um processo consciente. Eu editei minha resposta para incluir esse artigo.
Patrick S. Forscher
Acabei de encontrar a versão publicada de Gelman & Loken (2014) na American Scientist.
Patrick S. Forscher
10

Uma verificação substancial da questão importante levantada nesta questão é que a "verdade científica" não se baseia em publicações isoladas e individuais. Se um resultado for suficientemente interessante, levará outros cientistas a buscar as implicações do resultado. Esse trabalho tenderá a confirmar ou refutar a descoberta original. Pode haver uma chance de 1/20 de rejeitar uma hipótese nula verdadeira em um estudo individual, mas apenas 1/400 de fazê-lo duas vezes seguidas.

Se os cientistas simplesmente repetissem os experimentos até encontrarem "significado" e depois publicassem seus resultados, o problema poderia ser tão grande quanto o OP sugere. Mas não é assim que a ciência funciona, pelo menos nos meus quase 50 anos de experiência em pesquisa biomédica. Além disso, uma publicação raramente trata de um único experimento "significativo", mas baseia-se em um conjunto de experimentos inter-relacionados (cada um deve ser "significativo" por si só) que juntos fornecem suporte para uma hipótese substantiva mais ampla.

Um problema muito maior vem de cientistas comprometidos demais com suas próprias hipóteses. Eles então podem interpretar demais as implicações de experimentos individuais para apoiar suas hipóteses, se engajar na edição de dados duvidosos (como remover arbitrariamente valores discrepantes) ou (como eu já vi e ajudei a capturar) apenas compor os dados.

A ciência, no entanto, é um processo altamente social, independentemente da mitologia sobre cientistas loucos se escondendo no alto de torres de marfim. A troca entre milhares de cientistas que buscam seus interesses, com base no que aprenderam com o trabalho de outros, é a proteção institucional definitiva contra falsos positivos. Às vezes, falsas descobertas podem ser perpetuadas por anos, mas se uma questão for suficientemente importante, o processo acabará por identificar as conclusões errôneas.

EdM
fonte
6
1/400040
2
Dos 23 milhões de estudos, ainda não podíamos dizer se 5.000 resultados rejeitam a hipótese nula apenas devido ao ruído, não é? Também é realmente um problema de escala. Depois de ter milhões de pesquisas, o erro do tipo 1 será comum.
N_mu_sigma 19/07/2015
3
Se houvesse apenas 5000 conclusões errôneas dos 23.000.000 de estudos, eu chamaria isso de incomum !
whuber
3
Em quase 50 anos fazendo ciência e conhecendo outros cientistas, não consigo pensar em ninguém que repetiu experimentos até que eles alcançassem "significado". A possibilidade teórica levantada pelo @whuber não é, na minha experiência, um grande problema prático. O problema prático muito maior é a criação de dados, indiretamente, jogando fora "outliers" que não se encaixam em um preconceito, ou apenas criando "dados" para começar. Esses comportamentos que eu já vi em primeira mão e não podem ser corrigidos ajustando os valores de p .
EdM
3
@EdM "Pode haver uma chance de 1/20 de rejeitar uma hipótese nula verdadeira em um estudo individual, mas apenas 1/4000 de fazê-lo duas vezes seguidas". Como você conseguiu o segundo número?
Aksakal
5

Apenas para adicionar à discussão, aqui está um post interessante e uma discussão subsequente sobre como as pessoas geralmente entendem mal o valor-p.

O que deve ser mantido em qualquer caso é que um valor-p é apenas uma medida da força da evidência na rejeição de uma dada hipótese. Um valor p definitivamente não é um limite rígido abaixo do qual algo é "verdadeiro" e acima do qual é apenas devido ao acaso. Conforme explicado no post mencionado acima:

os resultados são uma combinação de efeitos reais e acaso, não é / ou

Antoine
fonte
talvez isso contribua para a compreensão dos valores-p: stats.stackexchange.com/questions/166323/…
4

Como também apontado nas outras respostas, isso só causará problemas se você considerar seletivamente os resultados positivos nos quais a hipótese nula é descartada. É por isso que os cientistas escrevem artigos de revisão onde consideram resultados de pesquisa publicados anteriormente e tentam desenvolver uma melhor compreensão do assunto com base nisso. No entanto, ainda resta um problema, devido ao chamado "viés de publicação", ou seja, é mais provável que os cientistas escrevam um artigo sobre um resultado positivo do que sobre um resultado negativo, e também sobre um resultado negativo. maior probabilidade de ser rejeitado para publicação do que um artigo com resultado positivo.

Especialmente em áreas onde os testes estatísticos são muito importantes, isso será um grande problema, o campo da medicina é um exemplo notório. Por isso, tornou-se obrigatório registrar os ensaios clínicos antes de serem realizados (por exemplo, aqui ). Portanto, você deve explicar a configuração, como a análise estatística será realizada, etc., etc., antes que o julgamento comece. As principais revistas médicas se recusarão a publicar artigos se os ensaios que eles reportarem não estiverem registrados.

Infelizmente, apesar dessa medida, o sistema não está funcionando tão bem .

Conde Iblis
fonte
talvez isso contribua para a compreensão dos valores-p: stats.stackexchange.com/questions/166323/…
3

Isso está próximo de um fato muito importante sobre o método científico: enfatiza a falsificabilidade. A filosofia da ciência que é mais popular hoje em dia tem o conceito de falsificabilidade de Karl Popper como uma pedra angular.

O processo científico básico é assim:

  • Qualquer um pode reivindicar qualquer teoria que quiser, a qualquer momento. A ciência admitirá qualquer teoria que seja "falsificável". O sentido mais literal dessa palavra é que, se alguém não gostar da alegação, ela é livre para gastar os recursos para refutar a alegação. Se você acha que as meias argyle curam o câncer, você pode usar sua própria ala médica para refutá-lo.

  • Como essa barra de entrada é monumentalmente baixa, é tradicional que a "Ciência", como grupo cultural, não receba nenhuma idéia até que você tenha feito um "bom esforço" para falsificar sua própria teoria.

  • A aceitação de idéias tende a ocorrer por etapas. Você pode inserir seu conceito em um artigo de revista com um estudo e um valor p bastante baixo. O que isso compra é publicidade e alguma credibilidade. Se alguém estiver interessado em sua ideia, como se sua ciência tiver aplicativos de engenharia, eles poderão usá-la. Naquele momento, é mais provável que eles financiem uma rodada adicional de falsificação.

  • Esse processo segue em frente, sempre com a mesma atitude: acredite no que você quer, mas, para chamá-lo de ciência, preciso refutá-lo mais tarde.

Essa barra baixa de entrada é o que permite que ela seja tão inovadora. Então, sim, há um grande número de artigos de periódicos teoricamente "errados" por aí. No entanto, a chave é que todo artigo publicado é teoricamente falsificável; portanto, a qualquer momento, alguém pode gastar o dinheiro para testá-lo.

Essa é a chave: os periódicos contêm não apenas coisas que passam em um teste-p razoável, mas também contêm as chaves para que outros o desmonte se os resultados forem falsos.

Cort Ammon
fonte
1
Isso é muito idealista. Algumas pessoas estão preocupadas que muitos papéis errados possam criar uma relação sinal / ruído muito baixa na literatura e desacelerar seriamente ou desviar o processo científico.
Ameba
1
@amoeba Você traz um bom argumento. Eu certamente queria capturar o caso ideal, porque acho que ele se perde com frequência no barulho. Além disso, acho que a questão da SNR na literatura é uma questão válida, mas pelo menos é uma que deve ser equilibrada. Já existem conceitos de bons periódicos versus periódicos ruins, portanto, há algumas dicas de que esse ato de equilíbrio está em andamento há algum tempo.
Cort Ammon
Essa compreensão da filosofia da ciência parece estar desatualizada há várias décadas. A falsificabilidade popperiana é apenas "popular" no sentido de ser um mito urbano comum sobre como a ciência acontece.
EnergyNumbers
@EnergyNumbers Você poderia me esclarecer sobre a nova maneira de pensar? A filosofia SE tem uma opinião muito diferente da sua. Se você olhar para o histórico de perguntas ali, a falsificabilidade popperiana é a característica definidora da ciência para a maioria dos que falam sua voz. Eu adoraria aprender uma nova maneira de pensar e trazê-la para lá!
Cort Ammon
Novo? Kuhn refutou Popper décadas atrás. Se você não tem ninguém postando a Popperian no site filosofia.se, atualizá-lo parece ser uma causa perdida - basta deixá-lo na década de 1950. Se você quiser se atualizar, qualquer iniciação científica do século XXI sobre a filosofia da ciência deve começar.
EnergyNumbers
1

É assim que a "ciência" deve funcionar?

É assim que muitas ciências sociais funcionam. Não há muito com ciências físicas. Pense nisso: você digitou sua pergunta em um computador. As pessoas foram capazes de construir essas bestas complicadas, chamadas computadores, usando o conhecimento da física, química e outros campos das ciências físicas. Se a situação fosse tão ruim quanto você descreve, nenhum dos componentes eletrônicos funcionaria. Ou pense nas coisas como uma massa de elétron, conhecida com precisão insana. Eles passam por bilhões de portas lógicas em um computador por mais de uma vez, e seu computador ainda funciona e funciona por anos.

ATUALIZAÇÃO: Para responder aos votos que recebi, me senti inspirado a dar alguns exemplos.

O primeiro é da física: Bystritsky, VM, et al. " Medindo os fatores S astrofísicos e as seções transversais da reação p (d, γ) 3He na região de energia ultra baixa, usando um alvo de deuterido de zircônio ". Física de partículas e núcleos Letters 10.7 (2013): 717-722.

0.237±0.061

Meu próximo exemplo é de ... psicologia: Paustian-Underdahl, Samantha C., Lisa Slattery Walker e David J. Woehr. " Gênero e percepções da eficácia da liderança: uma meta-análise de moderadores contextuais ". Jornal de Psicologia Aplicada, 2014, vol. 99, nº 6, 1129 a 1145.

χ2

Agora, veja algumas tabelas de papéis e adivinhe de quais papéis eles são:

insira a descrição da imagem aqui insira a descrição da imagem aqui

Essa é a resposta porque, em um caso, você precisa de estatísticas "legais" e, em outro, não: porque os dados são ruins ou não. Quando você tem bons dados, não precisa de muitas estatísticas além dos erros padrão.

UPDATE2: @ PatrickS.Forscher fez uma declaração interessante no comentário:

Também é verdade que as teorias das ciências sociais são "mais brandas" (menos formais) do que as teorias da física.

Eu devo discordar. Em Economia e Finanças, as teorias não são "brandas". Você pode procurar aleatoriamente um trabalho nesses campos e obter algo assim:

insira a descrição da imagem aqui

e assim por diante.

É de Schervish, Mark J., Teddy Seidenfeld e Joseph B. Kadane. " Extensões da teoria da utilidade esperada e algumas limitações das comparações aos pares ." (2003). Isso parece macio para você?

Estou reiterando meu argumento aqui de que quando suas teorias não são boas e os dados são ruins, você pode usar a matemática mais difícil e ainda obter um resultado ruim.

Neste artigo, eles estão falando sobre serviços públicos, o conceito de felicidade e satisfação - absolutamente inobservável. É como o que é uma utilidade de ter uma casa versus comer um hambúrguer de queijo? Presumivelmente, existe essa função, na qual você pode conectar "comer cheeseburger" ou "morar na própria casa" e a função cuspirá a resposta em algumas unidades. Por mais louco que pareça, é nisso que a ecnômica moderna se baseia, graças a von Neuman.

Aksakal
fonte
1
+1 Não tenho certeza por que isso foi rebaixado duas vezes. Você está basicamente apontando que descobertas na física podem ser testadas com experimentos, e a maioria das "descobertas" nas ciências sociais não pode, o que não impede que recebam muita atenção da mídia.
Flounderer
6
A maioria das experiências envolve algum tipo de teste estatístico e ainda deixa espaço para erros do tipo 1 e comportamentos inadequados, como a pesca com valor p. Eu acho que destacar as ciências sociais é um pouco errado.
Kenji
4
Para alterar um pouco o que @GuilhermeKenjiChihaya está dizendo, o desvio padrão dos erros poderia presumivelmente ser usado para realizar um teste estatístico em experimentos físicos. Presumivelmente, esse teste estatístico chegaria à mesma conclusão que os autores chegam ao visualizar o gráfico com suas barras de erro. A principal diferença nos artigos de física é a quantidade de ruído subjacente no experimento, uma diferença que é independente da lógica subjacente ao uso de valores-p é válida ou inválida.
Patrick S. Forscher
3
Além disso, @Flounderer, você parece estar usando o termo "experimento" em um sentido que não conheço, como os cientistas sociais fazem "experimentos" (ou seja, randomização de unidades para condições) o tempo todo. É verdade que é difícil controlar os experimentos em ciências sociais no mesmo grau que está presente nos experimentos em física. Também é verdade que as teorias das ciências sociais são "mais brandas" (menos formais) do que as teorias da física. Mas esses fatores são independentes de um determinado estudo ser um "experimento".
Patrick S. Forscher
2
@Aksakal, enquanto discordo dos -1, também discordo parcialmente do seu crítico de ciências sociais. Seu exemplo de artigo econômico também não é um bom exemplo do que os cientistas sociais fazem diariamente, porque a teoria da utilidade é um conceito estritamente econômico / matemático / estatístico (portanto, já possui matemática) e não se assemelha, por exemplo, a teorias psicológicas que são testados experimentalmente ... No entanto, eu concordo que muitas vezes as estatísticas são usadas livremente em muitas áreas de pesquisa, incluindo as ciências sociais.
Tim