O que causa a descontinuidade na distribuição dos valores de p publicados em p <0,05?

27

Em um artigo recente , Masicampo e Lalande (ML) coletaram um grande número de valores de p publicados em muitos estudos diferentes. Eles observaram um curioso salto no histograma dos valores de p exatamente no nível crítico canônico de 5%.

Há uma boa discussão sobre esse fenômeno ML no blog do Prof. Wasserman:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

Em seu blog, você encontrará o histograma:

Histograma dos valores de p publicados

Como o nível de 5% é uma convenção e não uma lei da natureza, o que causa esse comportamento da distribuição empírica dos valores-p publicados?

Viés de seleção, "ajuste" sistemático de valores-p imediatamente acima do nível crítico canônico, ou o quê?

zen
fonte
11
Há pelo menos dois tipos de explicação: 1) o "problema da gaveta de arquivos" - estudos com p <0,05 são publicados, os acima não, por isso é realmente uma mistura de duas distribuições 2) As pessoas estão manipulando as coisas, possivelmente subconcientemente , para obter p <.05
Peter Flom - Restabelece Monica
3
Oi @Zen. Sim, exatamente esse tipo de coisa. Existe uma forte tendência para fazer coisas assim. Se nossa teoria for confirmada, é menos provável que procuremos problemas estatísticos do que se não o for. Isso parece fazer parte de nossa natureza, mas é algo contra o qual tentar nos proteger.
Peter Flom - Restabelece Monica
@ Zen Você pode estar interessado neste post no blog de Andrew Gelman, que menciona algumas pesquisas que descobrem que não há viés de publicação em pesquisas sobre viés de publicação ...! andrewgelman.com/2012/04/...
smillig
1
O que seria interessante é o cálculo retroativo dos valores-p de artigos em periódicos que rejeitam expressamente artigos baseados em valores-p, como a Epidemiologia costumava (e em alguns sentidos ainda o faz). Eu me pergunto se isso muda se o periódico declarar que não se importa ou se os revisores / autores ainda estão fazendo testes ad-hoc mentais com base em intervalos de confiança.
Fomite 01/10/12
4
Conforme explicado no blog de Larry, esta é uma coleção de valores-p publicados, em vez de uma amostra aleatória de valores-p amostrados no mundo dos valores-p. Portanto, não há razão para que uma distribuição uniforme apareça na imagem, mesmo como parte de uma mistura como modelada no post de Larry.
Xian

Respostas:

14

(1) Como já mencionado por @PeterFlom, uma explicação pode estar relacionada ao problema "gaveta de arquivos". (2) O @Zen também mencionou o caso em que o (s) autor (es) manipula (s) os dados ou os modelos (por exemplo, dragagem de dados ). (3) No entanto, não testamos hipóteses de maneira puramente aleatória. Ou seja, hipóteses não são escolhidas por acaso, mas temos (mais ou menos fortes) pressupostos teóricos.

Você também pode estar interessado nos trabalhos de Gerber e Malhotra, que recentemente realizaram pesquisas nessa área, aplicando o chamado "teste de pinça":

Você também pode estar interessado nesta edição especial editada por Andreas Diekmann:

Bernd Weiss
fonte
10

Um argumento que está faltando até agora é a flexibilidade da análise de dados conhecida como grau de liberdade dos pesquisadores. Em todas as análises, há muitas decisões a serem tomadas, onde definir o critério externo, como transformar os dados e ...

Isso foi levantado recentemente em um artigo influente de Simmons, Nelson e Simonsohn:

Simmons, JP, Nelson, LD, e Simonsohn, U. (2011). Psicologia falso-positiva: flexibilidade não revelada na coleta e análise de dados permite apresentar qualquer coisa como significativa. Psychological Science , 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632

(Observe que este é o mesmo Simonsohn responsável por alguns casos recentemente detectados de fraude de dados em Psicologia Social, por exemplo, entrevista , postagem em blog )

Henrik
fonte
8

Eu acho que é uma combinação de tudo o que já foi dito. Esses são dados muito interessantes e eu nunca pensei em olhar para distribuições de valor p assim antes. Se a hipótese nula for verdadeira, o valor-p seria uniforme. Mas, é claro, com os resultados publicados, não veríamos uniformidade por muitas razões.

  1. Fazemos o estudo porque esperamos que a hipótese nula seja falsa. Portanto, devemos obter resultados significativos com mais frequência do que não.

  2. Se a hipótese nula fosse falsa apenas na metade do tempo, não teríamos uma distribuição uniforme dos valores-p.

  3. Problema na gaveta de arquivo: Como mencionado, teríamos medo de enviar o artigo quando o valor-p não for significativo, por exemplo, abaixo de 0,05.

  4. Os editores rejeitarão o artigo devido a resultados não significativos, mesmo que tenhamos optado por enviá-lo.

  5. Quando os resultados estão no limite, faremos as coisas (talvez não com intenção maliciosa) para obter significado. (a) arredonde para 0,05 quando o valor-p for 0,053, (b) encontre observações que pensamos que podem ser estranhas e, depois de movê-las, o valor-p cai abaixo de 0,05.

Espero que isso resuma tudo o que foi dito de uma maneira razoavelmente compreensível.

O que acho interessante é que vemos valores de p entre 0,05 e 0,1. Se as regras de publicação rejeitassem algo com valores de p acima de 0,05, a cauda direita seria cortada em 0,05. Ele realmente cortou em 0,10? Nesse caso, talvez alguns autores e algumas revistas aceitem um nível de significância de 0,10, mas nada mais.

Como muitos trabalhos incluem vários valores de p (ajustados ou não para várias cidades) e o trabalho é aceito porque os principais testes foram significativos, podemos ver valores de p não significativos incluídos na lista. Isso levanta a questão "Todos os valores p relatados no artigo foram incluídos no histograma?"

Uma observação adicional é que há uma tendência significativa de alta na frequência de artigos publicados, pois o valor-p fica muito abaixo de 0,05. Talvez essa seja uma indicação dos autores que interpretam demais o pensamento de valor p p <0,0001 é muito mais digno de publicação. Eu acho que o autor ignora ou não percebe que o valor p depende tanto do tamanho da amostra quanto da magnitude do tamanho do efeito.

Michael R. Chernick
fonte