Por que a comparação múltipla é um problema?

44

Acho difícil entender qual é realmente o problema com várias comparações . Com uma analogia simples, diz-se que uma pessoa que tomará muitas decisões cometerá muitos erros. Uma precaução tão conservadora é aplicada, como a correção de Bonferroni, de modo a aumentar a probabilidade de que essa pessoa cometa algum erro, o mais baixo possível.

Mas por que nos preocupamos se a pessoa cometeu algum erro entre todas as decisões que tomou, em vez da porcentagem de decisões erradas?

Deixe-me tentar explicar o que me confunde com outra analogia. Suponha que haja dois juízes, um com 60 anos e o outro com 20. Então a correção de Bonferroni diz a quem tem 20 anos para ser o mais conservador possível, ao decidir pela execução, porque ele trabalhará por muitos mais anos como juiz, tomará muito mais decisões, por isso ele deve ser cuidadoso. Mas aquele com 60 anos de idade possivelmente se aposentará em breve, tomará menos decisões, para que ele possa ser mais descuidado em comparação com o outro. Mas, na verdade, ambos os juízes devem ser igualmente cuidadosos ou conservadores, independentemente do número total de decisões que tomarão. Penso que essa analogia se traduz mais ou menos nos problemas reais em que a correção de Bonferroni é aplicada, o que acho contra-intuitivo.

AgCl
fonte
8
não é realmente uma resposta para sua pergunta, mas você encontrou as taxas de falsas descobertas (FDR)? "Beyond Bonferroni" de Narum: springerlink.com/content/c5047h0084528056
apeescape

Respostas:

40

Você declarou algo que é um contra-argumento clássico das correções de Bonferroni. Não devo ajustar meu critério de alfa com base em todos os testes que eu fizer? Esse tipo de implicação ad absurdum é o motivo pelo qual algumas pessoas não acreditam nas correções do estilo Bonferroni. Às vezes, o tipo de dado que se lida em sua carreira é tal que isso não é um problema. Para juízes que tomam uma ou poucas decisões sobre cada nova evidência, esse é um argumento muito válido. Mas e o juiz com 20 réus e quem está baseando seu julgamento em um único conjunto grande de dados (por exemplo, tribunais de guerra)?

Você está ignorando os chutes na parte do argumento. Geralmente, os cientistas estão procurando por algo - um valor p menor que alfa. Toda tentativa de encontrar um é outro chute na lata. Um acabará por encontrar um, se alguém disparar o suficiente. Portanto, eles devem ser penalizados por fazer isso.

A maneira como você harmoniza esses dois argumentos é perceber que ambos são verdadeiros. A solução mais simples é considerar o teste de diferenças em um único conjunto de dados como um pontapé no tipo de problema da lata, mas expandir o escopo da correção para fora seria uma inclinação escorregadia.

Esse é um problema genuinamente difícil em vários campos, principalmente na FMRI, onde existem milhares de pontos de dados sendo comparados e é provável que alguns surjam significativos por acaso. Dado que o campo tem sido historicamente muito exploratório, é preciso fazer algo para corrigir o fato de que centenas de áreas do cérebro parecerão significativas apenas por acaso. Portanto, muitos métodos de ajuste de critério foram desenvolvidos nesse campo.

Por outro lado, em alguns campos, é possível observar no máximo 3 a 5 níveis de uma variável e sempre testar todas as combinações se ocorrer uma ANOVA significativa. É conhecido por ter alguns problemas (erros do tipo 1), mas não é particularmente terrível.

Depende do seu ponto de vista. O pesquisador da FMRI reconhece uma necessidade real de uma mudança de critério. A pessoa que olha para uma pequena ANOVA pode sentir que há claramente algo lá no teste. O ponto de vista conservador adequado nas múltiplas comparações é sempre fazer algo sobre elas, mas apenas com base em um único conjunto de dados. Qualquer novo dado redefine o critério ... a menos que você seja bayesiano ...

John
fonte
Obrigado, tem sido muito útil. Vou votar quando tiver representante suficiente.
AgCl
O pesquisador da FMRI provavelmente também usaria o critério Taxa de descoberta falsa (FDR), uma vez que garante alfa * 100% de falsos positivos durante um longo período de testes.
Brandon Sherman
@ John, você pode responder a esta pergunta stats.stackexchange.com/questions/431011/… Eu ficaria feliz, se você puder me ajudar.
Sabbir Ahmed
26

Estatísticos respeitados assumiram uma ampla variedade de posições em múltiplas comparações. É um assunto sutil. Se alguém acha que é simples, eu me pergunto o quanto eles pensaram sobre isso.

Aqui está uma interessante perspectiva bayesiana sobre vários testes de Andrew Gelman: Por que (geralmente) não nos preocupamos com múltiplas comparações .

John D. Cook
fonte
2
O que acho interessante neste artigo é que a perspectiva é bayesiana, mas a abordagem de modelagem hierárquica oferecida para substituir correções em múltiplas comparações não exige que você seja bayesiano.
conjugateprior
1
Eu estava apenas olhando para esse artigo; Eu acho que talvez precise ser mais citado. Eu odeio efeitos de descarga pelo ralo, porque técnicas avançadas de comparação múltipla não são bem conhecidas ou fáceis de fazer. Por outro lado, uma abordagem mais simples é simples. Eu me pergunto se há problemas sérios com isso que precisam ser considerados.
22411 russellpierce
13

Relacionado ao comentário anterior, o que o pesquisador de fMRI deve lembrar é que os resultados clinicamente importantes são o que importa, não a mudança de densidade de um único pixel em uma fMRI do cérebro. Se não resultar em melhoria / prejuízo clínico, não importa. Essa é uma maneira de reduzir a preocupação com múltiplas comparações.

Veja também:

  1. Bauer, P. (1991). Testes múltiplos em ensaios clínicos. Stat Med, 10 (6), 871-89; discussão 889-90.
  2. Proschan, MA; Waclawiw, MA (2000). Diretrizes práticas para o ajuste da multiplicidade em ensaios clínicos. Control Clin Trials, 21 (6), 527-39.
  3. Rothman, KJ (1990). Não são necessários ajustes para várias comparações. Epidemiology (Cambridge, Mass.), 1 (1), 43-6.
  4. Perneger, TV (1998). O que há de errado com os ajustes Bonferroni. BMJ (Clinical Research Ed.), 316 (7139), 1236-8.
pmgjones
fonte
Definitivamente, vale a pena citar: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
nico
Tenho certeza que eles se divertiram muito perguntando a um salmão morto suas emoções !!!
Nico
Esta publicação também possui referências úteis relacionadas aos ECRs: j.mp/bAgr1B .
chl
10

n(XEu)Eu=1,...,nEu=1,...,n XEuN(θEu,1)

H0 0Eu:θEu=0 0H1Eu:θEu0 0

nEuτEuH0 0Eu|XEu|>τEu

τEu

  1. escolha o mesmo limite para todos

  2. para escolher um limite diferente para todos (na maioria das vezes, um limite de dados, veja abaixo).

Objetivos diferentes: essas opções podem ser direcionadas para objetivos diferentes , como

  • H0 0EuEu
  • Controlando a expectativa da taxa de falso alarme (ou Taxa de descoberta falsa)

    Qualquer que seja o seu objetivo no final, é uma boa ideia usar um limite de dados.

Minha resposta para sua pergunta: sua intuição está relacionada à heurística principal para escolher um limite de dados. É o seguinte (na origem do procedimento de Holm, que é mais poderoso que Bonferoni):

p|XEu|H0 0Eun-pH0 0Eu

No caso de seus juízes: Eu assumo (e acho que você deve fazer o mesmo) que ambos os juízes tenham os mesmos orçamentos de acusações falsas para a vida deles. O juiz de 60 anos pode ser menos conservador se, no passado, ele não acusou ninguém! Mas se ele já fez muitas acusações, será mais conservador e talvez até mais do que o juiz mais jovem.

Robin Girard
fonte
Acho que você tem um erro de digitação em suas hipóteses - ambos parecem ser o mesmo ...
WalkyTalky
2

Um artigo ilustrativo (e engraçado); http://www.jsur.org/ar/jsur_ben102010.pdf ) sobre a necessidade de correção múltipla de testes em algum estudo prático, evoluindo muitas variáveis, por exemplo, fmri. Esta citação curta diz a maior parte da mensagem:

"[...] concluímos uma sessão de ressonância magnética fMRI com um salmão do Atlântico post mortem como sujeito. O salmão mostrou a mesma tarefa de tomada de perspectiva social que mais tarde foi administrada a um grupo de indivíduos humanos".

isso é, na minha experiência, um ótimo argumento para incentivar os usuários a usar várias correções de teste.

peuhp
fonte