Uma revista de psicologia proibiu valores de p e intervalos de confiança; é de fato sensato parar de usá-los?

73

Em 25 de fevereiro de 2015, a revista Basic and Applied Social Psychology publicou um editorial proibindo valores- e intervalos de confiança de todos os trabalhos futuros. $p$

Especificamente, eles dizem (formatação e ênfase são minhas):

[...] antes da publicação, os autores deverão remover todos os vestígios do NHSTP [procedimento de teste de significância para hipóteses nulas] (valores- , valores- , valores- , declarações sobre diferenças '' significativas '' ou a falta delas , e assim por diante). $p$ $t$ $F$

Analogamente ao modo como o NHSTP falha em fornecer a probabilidade da hipótese nula, necessária para fornecer uma forte justificativa para rejeitá-la, os intervalos de confiança não fornecem uma forte justificativa para concluir que o parâmetro de interesse da população provavelmente está dentro do declarado intervalo. Portanto, os intervalos de confiança também são banidos do BASP.

[...] em relação aos procedimentos bayesianos, nos reservamos o direito de fazer julgamentos caso a caso e, portanto, os procedimentos bayesianos não são exigidos nem banidos do BASP.

[...] São necessários procedimentos estatísticos inferenciais? - Não, [...] no entanto, o BASP exigirá estatísticas descritivas fortes, incluindo tamanhos de efeito.

Não vamos discutir problemas e mau uso dos valores de aqui; já existem muitas discussões excelentes sobre o CV que podem ser encontradas navegando na tag p-value . A crítica dos valores de acompanha frequentemente um conselho para relatar intervalos de confiança para parâmetros de interesse. Por exemplo, nesta resposta muito bem argumentada, @gung sugere relatar tamanhos de efeito com intervalos de confiança ao seu redor. Mas este diário também proíbe intervalos de confiança. $p$ $p$

Quais são as vantagens e desvantagens dessa abordagem na apresentação de dados e resultados experimentais em oposição à abordagem "tradicional" com valores de , intervalos de confiança e dicotomia significativa / insignificante? A reação a essa proibição parece ser principalmente negativa; então quais são as desvantagens então? A American Statistical Association até postou um breve comentário desanimador sobre essa proibição, dizendo que "essa política pode ter suas próprias consequências negativas". Quais poderiam ser essas consequências negativas? $p$

Ou, como o @whuber sugeriu, essa abordagem deve ser defendida em geral como um paradigma de pesquisa quantitativa? E se não, por que não?

PS. Observe que minha pergunta não é sobre a proibição em si ; é sobre a abordagem sugerida. Também não estou perguntando sobre inferência freqüentista x bayesiana. O editorial também é bastante negativo sobre os métodos bayesianos; portanto, trata-se essencialmente de usar estatísticas versus não usar estatísticas.

Outras discussões: reddit , Gelman .

hypothesis-testing confidence-interval p-value effect-size psychology ameba
fonte

14

Há um mapeamento individual entre os valores de p e os intervalos de confiança nos modelos de regressão linear, por isso não vejo uma forte razão para proibir os valores de p, mas manter os intervalos de confiança faria muito sentido. Mas banir valores-p e intervalos de confiança deixa uma lacuna na descrição dos resultados ... Será que eles permitem relatar erros padrão (isso seria outra medida do mesmo grupo de mapeamento um-para-um).

Richard Hardy

7

Tudo poderia ser mal utilizado, então proibir coisas nessa condição é, bem ... estranho. Eu não sou fã de valores-p, mas isso parece uma abordagem bastante ingênua para o problema. Uma coisa é encorajadora a usar coisas apropriadas, mas proibir as coisas não soa como uma maneira adequada de lidar com o problema ...

Tim

12

Boa ideia. O uso de estatísticas apenas oculta a natureza não científica desse campo.

Aksakal

4

Isso parece uma reação exagerada completa à frustração com o uso indevido dos valores de p. Eu ficaria muito mais feliz com a proibição do uso indevido dos valores de p em vez dos valores de P em geral.

TrynnaDoStat

8

O quarto item da sua lista sugere que eles não exigem estimativas pontuais, o que seria inferência, mas os tamanhos dos efeitos relatados meramente como estatísticas descritivas. (No entanto, algumas linhas abaixo no editorial, "incentivamos o uso de tamanhos de amostra maiores do que é típico em muitas pesquisas em psicologia, porque, à medida que o tamanho da amostra aumenta, as estatísticas descritivas se tornam cada vez mais estáveis e o erro de amostragem é menos problemático". Aguardo com expectativa o editorial de 2016 pedindo pesquisas para formalizar essa noção de estabilidade e contabilizar quantitativamente os efeitos do erro de amostragem.)

Scortchi - Reinstate Monica

23

A primeira frase do atual editorial de 2015 à qual o OP está vinculado diz:

O Editorial de Psicologia Social Básica e Aplicada (BASP) de 2014 * enfatizou * que o procedimento de teste de significância de hipótese nula (NHSTP) é inválido ...

(minha ênfase)

Em outras palavras, para os editores, é um fato científico já comprovado que "o teste de significância de hipótese nula" é inválido, e o editorial de 2014 apenas o enfatizou, enquanto o atual editorial de 2015 apenas implementa esse fato.

O uso indevido (mesmo que malicioso) do NHSTP é realmente bem discutido e documentado. E não é inédito na história da humanidade que "as coisas são proibidas" porque foi descoberto que, apesar de tudo dito e feito, elas foram mal utilizadas mais do que usadas de bom uso (mas não deveríamos testar isso estatisticamente?). Pode ser uma "segunda melhor solução", reduzir o que em média (estatísticas inferenciais) resultou em perdas, em vez de ganhos, e, portanto, prevemos (estatísticas inferenciais) que isso será prejudicial também no futuro.

Mas o zelo revelado por trás das palavras da primeira frase acima faz com que isso pareça exatamente como uma abordagem fanática , em vez de uma decisão tola de cortar a mão que tende a roubar, em vez de oferecer. Se alguém ler o editorial de um ano mais antigo mencionado na citação acima (DOI: 10.1080 / 01973533.2014.865505), verá que isso é apenas parte de um re-transporte das políticas da Revista por um novo editor.

Rolando o editorial, eles escrevem

... Pelo contrário, acreditamos que a barra p <0,05 é muito fácil de passar e, às vezes, serve como desculpa para pesquisas de qualidade inferior.

Portanto, parece que a conclusão deles relacionada à disciplina é que as hipóteses nulas são rejeitadas "com muita frequência" e, portanto, os resultados alegados podem adquirir significância estatística espúria. Este não é o mesmo argumento que o ditado "inválido" na primeira frase.

Portanto, para responder à pergunta, é óbvio que, para os editores da revista, sua decisão não é apenas sábia, mas já tardia em ser implementada: eles parecem pensar que cortam qual parte das estatísticas se tornou prejudicial, mantendo o partes benéficas - elas não parecem acreditar que exista algo aqui que precise ser substituído por algo "equivalente".

Epistemologicamente, esse é um caso em que os estudiosos de uma ciência social se retraem parcialmente de uma tentativa de tornar sua disciplina mais objetiva em seus métodos e resultados usando métodos quantitativos, porque chegaram à conclusão (como?) De que, no final, , a tentativa criou "mais mal do que bem". Eu diria que esse é um assunto muito importante, em princípio possível de acontecer, e que exigiria anos de trabalho para demonstrá-lo "além da dúvida razoável" e realmente ajudar sua disciplina. Mas apenas um ou dois editoriais e artigos publicados provavelmente (estatísticas inferenciais) apenas desencadearão uma guerra civil.

A frase final do editorial de 2015 diz:

Esperamos e antecipamos que a proibição do NHSTP terá o efeito de aumentar a qualidade dos manuscritos submetidos, libertando os autores da estrutura stultificada do pensamento do NHSTP, eliminando assim um importante obstáculo ao pensamento criativo. O NHSTP domina a psicologia há décadas; esperamos que, ao instituir a primeira proibição do NHSTP, demonstremos que a psicologia não precisa da muleta do NHSTP e que outros periódicos sigam o exemplo.

Alecos Papadopoulos
fonte

5

Sim ... temos que ter cuidado ao escrever respostas sarcásticas ou sarcásticas neste site: elas podem ser (completamente) mal compreendidas!

whuber

4

@ naught101 ... isso não seria muito diplomático. Observe que, da maneira como o NHSTP é condenado, poupa os próprios psicólogos de que o usaram em todas essas décadas. Se estivesse escrito da maneira que você propõe, pareceria muito mais um ataque direto a seus colegas como cientistas. Como está agora, essencialmente, o texto implica que os psicólogos cheios de boas intenções foram, infelizmente, induzidos em erro ao usar a abordagem, por "alguém", que abusou de seu "poder de autoridade científica" no assunto ... Talvez por estatísticos maus, dirigidos por cientistas. imperialismo?

Alecos Papadopoulos

4

Um trabalhador ruim culpa suas ferramentas.

naught101

3

@BrianDHall Eu sugeriria procurar mais recursos oficiais sobre as questões que envolvem o NHSTP (este site incluído), em vez dos trabalhos do autor específico sobre o assunto. O assunto é difícil e sutil - já que, a partir do seu comentário, deve-se discutir primeiro a semântica em torno de "aceitar" e "afirmar" ...

Alecos Papadopoulos

6

@ naught101: Se você perceber que o trabalhador não consegue lidar com a serra elétrica corretamente, talvez não culpe a ferramenta. Mas você ainda iria levá-la para longe do trabalhador, para evitar mais danos ;-)

Nikie

19

Eu acho que banir testes de hipóteses é uma ótima idéia, exceto algumas poucas hipóteses de "existência", por exemplo, testar a hipótese nula de que não há percepção extra-sensorial, onde tudo o que seria necessário demonstrar para ter evidências de que a PES existe é não aleatoriedade . Mas acho que a revista perdeu o argumento de que o principal fator de baixa pesquisa em psicologia é o uso de um limiar nos valores deFoi demonstrado na psicologia e na maioria dos outros campos que boa parte dos jogos chega a . Isso inclui substituição de hipóteses, remoção de observações e subconjunto de dados. São os limiares que devem ser banidos primeiro. $P$ $P < 0.05$

A proibição de intervalos de confiança também é exagerada, mas não pelas razões declaradas por outros. Intervalos de confiança são úteis apenas se alguém os interpretar erroneamente como intervalos credíveis bayesianos (para antecedentes adequados de não informação). Mas eles ainda são úteis. O fato de sua exata interpretação freqüentista não levar a nada além de confusão implica que precisamos "sair de Dodge" e frequentar a escola bayesiana ou de probabilidade. Mas resultados úteis podem ser obtidos interpretando mal os bons e velhos limites de confiança.

É uma pena que os editores da revista tenham entendido mal as estatísticas bayesianas e não sabem da existência de pura inferência de probabilidade. O que eles estão procurando pode ser facilmente fornecido pelas distribuições posteriores bayesianas, usando anteriores um pouco céticos.

Frank Harrell
fonte

n

$n$

3 \pm 0.5

$3 \pm 0.5$

3 \pm 1

$3 \pm 1$

p < 0.05

$p<0.05$

4

Penso que os erros padrão são simplificados demais (porque assumem distribuições simétricas), mas medidas úteis de precisão, como erro médio quadrático. Você pode pensar em um intervalo de precisão com base no erro quadrático médio da raiz sem visualizar a cobertura de probabilidade. Portanto, não vejo onde essa discussão implica a ênfase dos erros padrão. E eu não estava sugerindo que parássemos de usar CLs. Mas a dificuldade com CLs vem principalmente de tentativas de interpretação de probabilidade.

Frank Harrell

Hummm. Interessante. Para mim, parece que existe um pequeno passo do erro padrão para o IC (um fator constante!), Que tratá-los de maneira diferente seria estranho. Mas talvez seja um ponto semântico; Acho que o que você quer dizer é que as pessoas pensam sobre erros padrão e ICs de maneira diferente e tendem a ficar mais confusas sobre os ICs. Eu me pergunto o que essa política específica de periódico diz sobre erros padrão (o Editorial não os menciona explicitamente).

Ameba diz Reinstate Monica

2

Em situações simétricas, o erro padrão é um componente básico para um intervalo de confiança. Mas, em muitos casos, o intervalo de confiança correto é assimétrico, portanto, não pode se basear em nenhum erro padrão. Algumas variedades de bootstrap e back-transforming são duas abordagens desse tipo. Os intervalos de confiança da probabilidade do perfil vêm especialmente à mente aqui.

Frank Harrell

@ Frank Harrell - Quanto à "inferência pura de probabilidade", concordo que uma ênfase na sumarização da probabilidade dos dados sem embelezá-los com limites parece ser a resposta que os editores estavam buscando. O livro "Probabilidade" do AWF Edwards (1972) fala diretamente à preocupação do editor: "Podemos adiar a consideração desses argumentos (por exemplo, teste de significância) até os capítulos posteriores, e passar imediatamente para a descrição de um procedimento, com base no conceito de probabilidade de probabilidade de Fisher. , que está aberto a nenhum desses objetos que possam ser nivelados em testes de significância ".

John Mark

13

Eu vejo essa abordagem como uma tentativa de abordar a incapacidade da psicologia social de replicar muitas 'descobertas significativas' publicadas anteriormente.

Suas desvantagens são:

que não trata de muitos dos fatores que levam a efeitos espúrios. Por exemplo,
- A) As pessoas ainda podem espiar seus dados e parar de executar seus estudos quando um tamanho de efeito parecer alto o suficiente para serem interessantes.
- B) Grandes tamanhos de efeitos ainda parecerão ter grande poder em avaliações retrospectivas de poder.
- C) As pessoas ainda pescarão efeitos interessantes e grandes (testando várias hipóteses em um experimento e depois relatando a que apareceu) ou
- D) fingir que era esperado um efeito estranho inesperado o tempo todo.
Não devem ser feitos esforços para resolver esses problemas primeiro?
À medida que um campo avança, torna terrível uma revisão das descobertas passadas. Não há como avaliar quantitativamente a credibilidade de diferentes estudos. Se todas as revistas implementarem essa abordagem, você terá um monte de cientistas sociais dizendo que há evidências para X quando não estiver totalmente claro o quão credível é X e cientistas discutindo sobre como interpretar um efeito publicado ou discutindo se é importante ou valioso. falando sobre. Não é este o ponto de ter estatísticas? Fornecer uma maneira consistente de avaliar números. Na minha opinião, essa nova abordagem causaria uma confusão se fosse amplamente implementada.
Essa mudança não incentiva os pesquisadores a enviar os resultados de estudos com pequenos tamanhos de efeito, para que não abordem realmente o efeito da gaveta de arquivos (ou eles publicarão descobertas com n's grandes, independentemente do tamanho do efeito?). Se publicarmos todos os resultados de estudos cuidadosamente planejados, mesmo que a credibilidade dos resultados de estudos individuais possa ser incerta, as meta-análises e revisões de estudos que forneceram análises estatísticas fariam um trabalho muito melhor na identificação da verdade.

captain_ahab
fonte

2

@captain_ahab Em relação ao ponto 3, devemos mencionar que o editorial anterior (2014) do Editor incentivou explicitamente a submissão de estudos de "efeito nulo".

Alecos Papadopoulos

11

Parece que não consigo encontrar um comentário no editorial que discuta qualquer critério para publicação, exceto pela necessidade de tamanhos de amostra maiores que o normal (como eles planejam identificar n aceitáveis sem estatísticas inferenciais não é claro para mim). Para mim, não há ênfase neste editorial de que eles não se importam com o tamanho do efeito. Parece-me que eles ainda estarão procurando efeitos interessantes e histórias interessantes, o que eu acho que é o maior problema no trabalho em ciências sociais (ou seja, a pesquisa post-hoc de efeitos e histórias interessantes).

Captain_ahab 27/02

2

O que parece ser uma solução melhor é que todos os cientistas devem registrar a hipótese, o racional básico, o poder e a abordagem analítica de um estudo em um local PÚBLICO ANTES de executar o estudo. E, depois, limitar-se a publicar esse estudo da maneira prescrita. Se for encontrado um efeito interessante inesperado, eles devem registrar publicamente e executar um novo estudo que examine esse efeito. Essa abordagem ao controlar os falsos positivos também permitiria aos cientistas demonstrar sua produtividade sem publicar novos efeitos.

Captain_ahab 27/02

7

Me deparei com uma citação maravilhosa que quase defende o mesmo ponto, mas não exatamente - já que é um parágrafo de abertura de um livro que trata principalmente de estatísticas freqüentistas e testes de hipóteses.

É amplamente aceito por não estatísticos, como o autor, que se você fizer boas experiências, as estatísticas não serão necessárias. Eles estão certos. [...] o problema, é claro, é que fazer bons experimentos é difícil. A maioria das pessoas precisa de toda a ajuda possível para impedir que se enganem afirmando que sua teoria favorita é substanciada por observações que não fazem nada disso. E a principal função dessa seção de estatística que lida com testes de significância é impedir que as pessoas se enganem. Desse ponto de vista, a função dos testes de significância é impedir que as pessoas publiquem experimentos, não incentivá-los. Idealmente, de fato, os testes de significância nunca devem aparecer impressos, tendo sido utilizados, se é que existem, nos estágios preliminares para detectar experimentos inadequados,

- David Colquhoun, Palestras sobre Bioestatística , 1971

ameba diz Restabelecer Monica
fonte

11

Sua postagem é realmente um comentário, e não uma resposta. Por isso, evito votá-la novamente, mas desejo agradecer por compartilhar a citação. Há tantos mal-entendidos evidentes nesta passagem que seria necessário um grande esforço (para não dizer espaço) para apontar e desmascarar todos eles. Em uma palavra, porém, o contraponto a essas afirmações é "eficiência". Se todos tivessem tempo e orçamento ilimitados, poderíamos pelo menos aspirar a realizar "boas experiências". Mas quando os recursos são limitados, seria imprudente (e caro) realizar apenas experimentos "finais, ... claros".

whuber

2

Obrigado pelo seu comentário, @whuber; Eu concordo com o que voce esta dizendo. Ainda assim, devo acrescentar que acho interessante dizer que dados idealmente experimentais devem ser tão convincentes que tornam redundantes os testes formais de hipóteses. Este não é um ideal inatingível! No meu campo (onde os valores p são muito usados), acho que os melhores trabalhos são convincentes sem eles: por exemplo, porque eles apresentam uma sequência de vários experimentos apoiando um ao outro, que juntos, obviamente , não podem ser um acaso estatístico. Re comentário: era muito longo para um comentário, e achei que estava tudo bem como resposta da CW.

Ameba diz Reinstate Monica

Sim, entendo por que ele teve que ser publicado como resposta e, portanto, não votou para movê-lo para um comentário (o que cortaria a última parte da citação). Concordo que o ideal não é inatingível em casos particulares . Também concordo que é um bom ideal ter em mente. Mas, como um guia de como projetar experimentos (que é, em geral, uma disciplina de alocação de recursos), pode ser um erro terrível. (Isso certamente é discutível.) A sugestão de que um experimento "bom" nunca exigiria métodos estatísticos é, no entanto, aquele que não resiste nem ao exame superficial.

whuber

11

Talvez uma maneira de ler isso seja dizer que o teste de significância inicial que sugeriu uma substância estimula uma certa resposta fisiológica não é mais relevante no momento em que você publica suas investigações sobre os efeitos de diferentes tipos de inibidores na curva de dose-resposta.

Scortchi - Restabelece Monica

Uma revista de psicologia proibiu valores de p e intervalos de confiança; é de fato sensato parar de usá-los?

Respostas: