Em resposta a um crescente corpo de estatísticos e pesquisadores que criticam a utilidade do teste de hipótese nula (NHT) para a ciência como um esforço cumulativo, a Força-Tarefa da Associação Americana de Psicologia em Inferência Estatística evitou uma proibição total do NHT, mas sugeriu que os pesquisadores relatam tamanhos de efeito, além de p-valores derivados do NHT.
No entanto, os tamanhos dos efeitos não são facilmente acumulados nos estudos. As abordagens meta-analíticas podem acumular distribuições de tamanhos de efeito, mas os tamanhos de efeito são tipicamente calculados como uma razão entre a magnitude do efeito bruto e o "ruído" inexplicável nos dados de um determinado experimento, o que significa que a distribuição dos tamanhos de efeito é afetada não apenas pelo variabilidade na magnitude bruta do efeito entre os estudos, mas também variabilidade na manifestação de ruído entre os estudos.
Por outro lado, uma medida alternativa da força do efeito, a razão de verossimilhança, permite interpretação intuitiva estudo a estudo e pode ser facilmente agregada entre os estudos para a meta-análise. Dentro de cada estudo, a probabilidade representa o peso da evidência de um modelo que contém um determinado efeito em relação a um modelo que não contém o efeito e normalmente pode ser relatado como, por exemplo, "Cálculo de uma razão de verossimilhança para o efeito de X revelou 8 vezes mais evidências para o efeito do que para seu respectivo nulo ". Além disso, a razão de verossimilhança também permite a representação intuitiva da força dos achados nulos, na medida em que as razões de verossimilhança abaixo de 1 representam cenários em que o nulo é favorecido e tomar o valor recíproco desse valor representa o peso da evidência do nulo sobre o efeito. Notavelmente, a razão de verossimilhança é representada matematicamente como a razão de variações inexplicáveis dos dois modelos, que diferem apenas na variação explicada pelo efeito e, portanto, não é uma grande saída conceitual de um tamanho de efeito. Por outro lado, o cálculo de uma razão de verossimilhança meta-analítica, representando o peso da evidência de um efeito nos estudos, é simplesmente uma questão de considerar o produto das razões de verossimilhança nos estudos.
Assim, argumento que, para a ciência que procura estabelecer o grau de evidência grosseira em favor de um efeito / modelo, as proporções de probabilidade são o caminho a percorrer.
Existem casos mais diferenciados em que os modelos são diferenciáveis apenas no tamanho específico de um efeito; nesse caso, pode ser preferido algum tipo de representação do intervalo durante o qual acreditamos que os dados são consistentes com os valores dos parâmetros do efeito. De fato, a força-tarefa da APA também recomenda relatar intervalos de confiança, que podem ser usados para esse fim, mas suspeito que essa também seja uma abordagem pouco considerada.
Intervalos de confiança são lamentavelmente frequentemente mal interpretados ( por estudantes e pesquisadores ). Receio também que sua capacidade de uso no NHT (pela avaliação da inclusão de zero no IC) sirva apenas para atrasar ainda mais a extinção do NHT como prática inferencial.
Em vez disso, quando as teorias são diferenciáveis apenas pelo tamanho dos efeitos, sugiro que a abordagem bayesiana seja mais apropriada, onde a distribuição anterior de cada efeito é definida por cada modelo separadamente e as distribuições posteriores resultantes são comparadas.
Essa abordagem, substituindo valores-p, tamanhos de efeito e intervalos de confiança por razões de verossimilhança e, se necessário, comparação do modelo bayesiano, parece suficiente? Perde algum recurso inferencial necessário que as alternativas aqui difamadas fornecem?
fonte
Respostas:
As principais vantagens de uma abordagem bayesiana, pelo menos para mim como pesquisadora em psicologia, são:
1) permite acumular evidências em favor do valor nulo
2) contorna os problemas teóricos e práticos do teste seqüencial
3) não é vulnerável a rejeitar um nulo apenas por causa de um N enorme (veja o ponto anterior)
4) é mais adequado quando se trabalha com efeitos pequenos (com efeitos grandes, os métodos freqüentista e bayesiano tendem a concordar praticamente o tempo todo)
5) permite fazer modelagem hierárquica de maneira viável. Por exemplo, a introdução de efeitos de itens e participantes em algumas classes de modelo, como os modelos da Árvore de processamento multinomial, precisaria ser feita em uma estrutura bayesiana, caso contrário, o tempo de computação seria insanamente longo.
6) fornece intervalos de confiança "reais"
7) Você precisa de três coisas: a probabilidade, os anteriores e a probabilidade dos dados. o primeiro que você obtém dos seus dados, o segundo que você cria e o terceiro que você não precisa de nenhuma proporcionalidade. Ok, talvez eu exagere um pouco ;-)
No geral, pode-se inverter sua pergunta: tudo isso significa que as estatísticas freqüentistas clássicas não são suficientes? Eu acho que dizer "não" é um veredicto muito severo. A maioria dos problemas pode ser um pouco evitada se alguém ultrapassar os valores-p e considerar itens como tamanhos de efeito, a possibilidade de efeitos de itens e replicar consistentemente as descobertas (muitos trabalhos de uma experiência são publicados!).
Mas nem tudo é tão fácil com Bayes. Tomemos, por exemplo, seleção de modelo com modelos não aninhados. Nesses casos, os priores são extremamente importantes, pois afetam enormemente os resultados e, às vezes, você não tem muito conhecimento sobre a maioria dos modelos com os quais deseja trabalhar, a fim de acertar seus priores. Além disso, leva muito tempo ....
Deixo duas referências para quem estiver interessado em mergulhar em Bayes.
"Um curso de modelagem gráfica bayesiana para ciência cognitiva" de Lee e Wagenmakers
"Modelagem Bayesiana Usando WinBUGS" por Ntzoufras
fonte