Acho difícil entender qual é realmente o problema com várias comparações . Com uma analogia simples, diz-se que uma pessoa que tomará muitas decisões cometerá muitos erros. Uma precaução tão conservadora é aplicada, como a correção de Bonferroni, de modo a aumentar a probabilidade de que essa pessoa cometa algum erro, o mais baixo possível.
Mas por que nos preocupamos se a pessoa cometeu algum erro entre todas as decisões que tomou, em vez da porcentagem de decisões erradas?
Deixe-me tentar explicar o que me confunde com outra analogia. Suponha que haja dois juízes, um com 60 anos e o outro com 20. Então a correção de Bonferroni diz a quem tem 20 anos para ser o mais conservador possível, ao decidir pela execução, porque ele trabalhará por muitos mais anos como juiz, tomará muito mais decisões, por isso ele deve ser cuidadoso. Mas aquele com 60 anos de idade possivelmente se aposentará em breve, tomará menos decisões, para que ele possa ser mais descuidado em comparação com o outro. Mas, na verdade, ambos os juízes devem ser igualmente cuidadosos ou conservadores, independentemente do número total de decisões que tomarão. Penso que essa analogia se traduz mais ou menos nos problemas reais em que a correção de Bonferroni é aplicada, o que acho contra-intuitivo.
Respostas:
Você declarou algo que é um contra-argumento clássico das correções de Bonferroni. Não devo ajustar meu critério de alfa com base em todos os testes que eu fizer? Esse tipo de implicação ad absurdum é o motivo pelo qual algumas pessoas não acreditam nas correções do estilo Bonferroni. Às vezes, o tipo de dado que se lida em sua carreira é tal que isso não é um problema. Para juízes que tomam uma ou poucas decisões sobre cada nova evidência, esse é um argumento muito válido. Mas e o juiz com 20 réus e quem está baseando seu julgamento em um único conjunto grande de dados (por exemplo, tribunais de guerra)?
Você está ignorando os chutes na parte do argumento. Geralmente, os cientistas estão procurando por algo - um valor p menor que alfa. Toda tentativa de encontrar um é outro chute na lata. Um acabará por encontrar um, se alguém disparar o suficiente. Portanto, eles devem ser penalizados por fazer isso.
A maneira como você harmoniza esses dois argumentos é perceber que ambos são verdadeiros. A solução mais simples é considerar o teste de diferenças em um único conjunto de dados como um pontapé no tipo de problema da lata, mas expandir o escopo da correção para fora seria uma inclinação escorregadia.
Esse é um problema genuinamente difícil em vários campos, principalmente na FMRI, onde existem milhares de pontos de dados sendo comparados e é provável que alguns surjam significativos por acaso. Dado que o campo tem sido historicamente muito exploratório, é preciso fazer algo para corrigir o fato de que centenas de áreas do cérebro parecerão significativas apenas por acaso. Portanto, muitos métodos de ajuste de critério foram desenvolvidos nesse campo.
Por outro lado, em alguns campos, é possível observar no máximo 3 a 5 níveis de uma variável e sempre testar todas as combinações se ocorrer uma ANOVA significativa. É conhecido por ter alguns problemas (erros do tipo 1), mas não é particularmente terrível.
Depende do seu ponto de vista. O pesquisador da FMRI reconhece uma necessidade real de uma mudança de critério. A pessoa que olha para uma pequena ANOVA pode sentir que há claramente algo lá no teste. O ponto de vista conservador adequado nas múltiplas comparações é sempre fazer algo sobre elas, mas apenas com base em um único conjunto de dados. Qualquer novo dado redefine o critério ... a menos que você seja bayesiano ...
fonte
Estatísticos respeitados assumiram uma ampla variedade de posições em múltiplas comparações. É um assunto sutil. Se alguém acha que é simples, eu me pergunto o quanto eles pensaram sobre isso.
Aqui está uma interessante perspectiva bayesiana sobre vários testes de Andrew Gelman: Por que (geralmente) não nos preocupamos com múltiplas comparações .
fonte
Relacionado ao comentário anterior, o que o pesquisador de fMRI deve lembrar é que os resultados clinicamente importantes são o que importa, não a mudança de densidade de um único pixel em uma fMRI do cérebro. Se não resultar em melhoria / prejuízo clínico, não importa. Essa é uma maneira de reduzir a preocupação com múltiplas comparações.
Veja também:
fonte
escolha o mesmo limite para todos
para escolher um limite diferente para todos (na maioria das vezes, um limite de dados, veja abaixo).
Objetivos diferentes: essas opções podem ser direcionadas para objetivos diferentes , como
Controlando a expectativa da taxa de falso alarme (ou Taxa de descoberta falsa)
Qualquer que seja o seu objetivo no final, é uma boa ideia usar um limite de dados.
Minha resposta para sua pergunta: sua intuição está relacionada à heurística principal para escolher um limite de dados. É o seguinte (na origem do procedimento de Holm, que é mais poderoso que Bonferoni):
No caso de seus juízes: Eu assumo (e acho que você deve fazer o mesmo) que ambos os juízes tenham os mesmos orçamentos de acusações falsas para a vida deles. O juiz de 60 anos pode ser menos conservador se, no passado, ele não acusou ninguém! Mas se ele já fez muitas acusações, será mais conservador e talvez até mais do que o juiz mais jovem.
fonte
Um artigo ilustrativo (e engraçado); http://www.jsur.org/ar/jsur_ben102010.pdf ) sobre a necessidade de correção múltipla de testes em algum estudo prático, evoluindo muitas variáveis, por exemplo, fmri. Esta citação curta diz a maior parte da mensagem:
isso é, na minha experiência, um ótimo argumento para incentivar os usuários a usar várias correções de teste.
fonte