Em 25 de fevereiro de 2015, a revista Basic and Applied Social Psychology publicou um editorial proibindo valores- e intervalos de confiança de todos os trabalhos futuros.
Especificamente, eles dizem (formatação e ênfase são minhas):
[...] antes da publicação, os autores deverão remover todos os vestígios do NHSTP [procedimento de teste de significância para hipóteses nulas] (valores- , valores- , valores- , declarações sobre diferenças '' significativas '' ou a falta delas , e assim por diante).t F
Analogamente ao modo como o NHSTP falha em fornecer a probabilidade da hipótese nula, necessária para fornecer uma forte justificativa para rejeitá-la, os intervalos de confiança não fornecem uma forte justificativa para concluir que o parâmetro de interesse da população provavelmente está dentro do declarado intervalo. Portanto, os intervalos de confiança também são banidos do BASP.
[...] em relação aos procedimentos bayesianos, nos reservamos o direito de fazer julgamentos caso a caso e, portanto, os procedimentos bayesianos não são exigidos nem banidos do BASP.
[...] São necessários procedimentos estatísticos inferenciais? - Não, [...] no entanto, o BASP exigirá estatísticas descritivas fortes, incluindo tamanhos de efeito.
Não vamos discutir problemas e mau uso dos valores de aqui; já existem muitas discussões excelentes sobre o CV que podem ser encontradas navegando na tag p-value . A crítica dos valores de acompanha frequentemente um conselho para relatar intervalos de confiança para parâmetros de interesse. Por exemplo, nesta resposta muito bem argumentada, @gung sugere relatar tamanhos de efeito com intervalos de confiança ao seu redor. Mas este diário também proíbe intervalos de confiança.p
Quais são as vantagens e desvantagens dessa abordagem na apresentação de dados e resultados experimentais em oposição à abordagem "tradicional" com valores de , intervalos de confiança e dicotomia significativa / insignificante? A reação a essa proibição parece ser principalmente negativa; então quais são as desvantagens então? A American Statistical Association até postou um breve comentário desanimador sobre essa proibição, dizendo que "essa política pode ter suas próprias consequências negativas". Quais poderiam ser essas consequências negativas?
Ou, como o @whuber sugeriu, essa abordagem deve ser defendida em geral como um paradigma de pesquisa quantitativa? E se não, por que não?
PS. Observe que minha pergunta não é sobre a proibição em si ; é sobre a abordagem sugerida. Também não estou perguntando sobre inferência freqüentista x bayesiana. O editorial também é bastante negativo sobre os métodos bayesianos; portanto, trata-se essencialmente de usar estatísticas versus não usar estatísticas.
Respostas:
A primeira frase do atual editorial de 2015 à qual o OP está vinculado diz:
(minha ênfase)
Em outras palavras, para os editores, é um fato científico já comprovado que "o teste de significância de hipótese nula" é inválido, e o editorial de 2014 apenas o enfatizou, enquanto o atual editorial de 2015 apenas implementa esse fato.
O uso indevido (mesmo que malicioso) do NHSTP é realmente bem discutido e documentado. E não é inédito na história da humanidade que "as coisas são proibidas" porque foi descoberto que, apesar de tudo dito e feito, elas foram mal utilizadas mais do que usadas de bom uso (mas não deveríamos testar isso estatisticamente?). Pode ser uma "segunda melhor solução", reduzir o que em média (estatísticas inferenciais) resultou em perdas, em vez de ganhos, e, portanto, prevemos (estatísticas inferenciais) que isso será prejudicial também no futuro.
Mas o zelo revelado por trás das palavras da primeira frase acima faz com que isso pareça exatamente como uma abordagem fanática , em vez de uma decisão tola de cortar a mão que tende a roubar, em vez de oferecer. Se alguém ler o editorial de um ano mais antigo mencionado na citação acima (DOI: 10.1080 / 01973533.2014.865505), verá que isso é apenas parte de um re-transporte das políticas da Revista por um novo editor.
Rolando o editorial, eles escrevem
Portanto, parece que a conclusão deles relacionada à disciplina é que as hipóteses nulas são rejeitadas "com muita frequência" e, portanto, os resultados alegados podem adquirir significância estatística espúria. Este não é o mesmo argumento que o ditado "inválido" na primeira frase.
Portanto, para responder à pergunta, é óbvio que, para os editores da revista, sua decisão não é apenas sábia, mas já tardia em ser implementada: eles parecem pensar que cortam qual parte das estatísticas se tornou prejudicial, mantendo o partes benéficas - elas não parecem acreditar que exista algo aqui que precise ser substituído por algo "equivalente".
Epistemologicamente, esse é um caso em que os estudiosos de uma ciência social se retraem parcialmente de uma tentativa de tornar sua disciplina mais objetiva em seus métodos e resultados usando métodos quantitativos, porque chegaram à conclusão (como?) De que, no final, , a tentativa criou "mais mal do que bem". Eu diria que esse é um assunto muito importante, em princípio possível de acontecer, e que exigiria anos de trabalho para demonstrá-lo "além da dúvida razoável" e realmente ajudar sua disciplina. Mas apenas um ou dois editoriais e artigos publicados provavelmente (estatísticas inferenciais) apenas desencadearão uma guerra civil.
A frase final do editorial de 2015 diz:
fonte
Eu acho que banir testes de hipóteses é uma ótima idéia, exceto algumas poucas hipóteses de "existência", por exemplo, testar a hipótese nula de que não há percepção extra-sensorial, onde tudo o que seria necessário demonstrar para ter evidências de que a PES existe é não aleatoriedade . Mas acho que a revista perdeu o argumento de que o principal fator de baixa pesquisa em psicologia é o uso de um limiar nos valores deFoi demonstrado na psicologia e na maioria dos outros campos que boa parte dos jogos chega a . Isso inclui substituição de hipóteses, remoção de observações e subconjunto de dados. São os limiares que devem ser banidos primeiro.P < 0,05P P<0.05
A proibição de intervalos de confiança também é exagerada, mas não pelas razões declaradas por outros. Intervalos de confiança são úteis apenas se alguém os interpretar erroneamente como intervalos credíveis bayesianos (para antecedentes adequados de não informação). Mas eles ainda são úteis. O fato de sua exata interpretação freqüentista não levar a nada além de confusão implica que precisamos "sair de Dodge" e frequentar a escola bayesiana ou de probabilidade. Mas resultados úteis podem ser obtidos interpretando mal os bons e velhos limites de confiança.
É uma pena que os editores da revista tenham entendido mal as estatísticas bayesianas e não sabem da existência de pura inferência de probabilidade. O que eles estão procurando pode ser facilmente fornecido pelas distribuições posteriores bayesianas, usando anteriores um pouco céticos.
fonte
Eu vejo essa abordagem como uma tentativa de abordar a incapacidade da psicologia social de replicar muitas 'descobertas significativas' publicadas anteriormente.
Suas desvantagens são:
que não trata de muitos dos fatores que levam a efeitos espúrios. Por exemplo,
A) As pessoas ainda podem espiar seus dados e parar de executar seus estudos quando um tamanho de efeito parecer alto o suficiente para serem interessantes.
B) Grandes tamanhos de efeitos ainda parecerão ter grande poder em avaliações retrospectivas de poder.
C) As pessoas ainda pescarão efeitos interessantes e grandes (testando várias hipóteses em um experimento e depois relatando a que apareceu) ou
D) fingir que era esperado um efeito estranho inesperado o tempo todo.
Não devem ser feitos esforços para resolver esses problemas primeiro?
À medida que um campo avança, torna terrível uma revisão das descobertas passadas. Não há como avaliar quantitativamente a credibilidade de diferentes estudos. Se todas as revistas implementarem essa abordagem, você terá um monte de cientistas sociais dizendo que há evidências para X quando não estiver totalmente claro o quão credível é X e cientistas discutindo sobre como interpretar um efeito publicado ou discutindo se é importante ou valioso. falando sobre. Não é este o ponto de ter estatísticas? Fornecer uma maneira consistente de avaliar números. Na minha opinião, essa nova abordagem causaria uma confusão se fosse amplamente implementada.
Essa mudança não incentiva os pesquisadores a enviar os resultados de estudos com pequenos tamanhos de efeito, para que não abordem realmente o efeito da gaveta de arquivos (ou eles publicarão descobertas com n's grandes, independentemente do tamanho do efeito?). Se publicarmos todos os resultados de estudos cuidadosamente planejados, mesmo que a credibilidade dos resultados de estudos individuais possa ser incerta, as meta-análises e revisões de estudos que forneceram análises estatísticas fariam um trabalho muito melhor na identificação da verdade.
fonte
Me deparei com uma citação maravilhosa que quase defende o mesmo ponto, mas não exatamente - já que é um parágrafo de abertura de um livro que trata principalmente de estatísticas freqüentistas e testes de hipóteses.
fonte