Entendo a intuição por trás do MCP, mas estou tendo problemas para identificar exatamente a causa, o que deve ser evitado ou, pelo menos, considerado.
Na sua definição mais brusca, concordo que, se eu pegar algum dado e aplicar uma abordagem de força bruta para tentar todas as hipóteses nulas possíveis, acabarei encontrando uma que possa ser rejeitada com um alfa arbitrário (por exemplo, 5%) e declarar uma descoberta.
Mas em muitas definições de MCP eu li algo como "quanto mais você testa, mais provavelmente encontrará" e, embora eu concorde, não a vejo necessariamente como um problema (ou pelo menos a raiz do problema). Por exemplo, se muitos pesquisadores estão analisando o mesmo fenômeno com os mesmos dados disponíveis, cada um testando sua própria hipótese, é mais provável que alguém chegue a uma descoberta (do que se fosse apenas um pesquisador), isso significa que eles devem aplicar algum tipo de correção no alfa alvo (por exemplo, uma correção de Bonferroni )? Suponho que a resposta seja não, mas não fica claro por que um único pesquisador testaria muitas hipóteses (novamente, concordando que o sistema de teste pode ser maltratado e deve haver uma correção para isso).
Quando essa chance aumentada de encontrar uma descoberta (rejeitar uma hipótese nula) se torna um problema? Ao pensar nas causas, existem alguns fatores que vêm à mente, mas não tenho certeza de qual deles (ou outros não listados aqui) está mais relacionado à causa desse problema:
Análise post hoc : Entendo que as hipóteses devem ser (preferencialmente) formuladas a priori; caso contrário, estou apenas olhando os dados tentando adivinhar qual hipótese eu poderia caber sob o alfa desejado.
Reutilizando dados: o problema desapareceu se eu usar conjuntos de dados diferentes para cada hipótese que teste? A chance de encontrar uma descoberta ainda aumentará o número de hipóteses que eu teste (mesmo em diferentes conjuntos de dados).
Pesquisadores independentes: reutilizando o exemplo anterior, o MCP está relacionado à mesma equipe / esforço de pesquisa? Ou se aplica a vários pesquisadores independentes que trabalham no mesmo problema (ou mesmo nos mesmos dados ou em dados semelhantes)?
Hipóteses independentes: relacionadas à questão anterior, o problema surge (ou se manifesta mais fortemente) quando as hipóteses são independentes? (porque estou cobrindo mais espaço de pesquisa) ou o problema principal é tentar hipóteses semelhantes com pequenas variações (por exemplo, ajustar um parâmetro)?
Eu poderia resumir os pontos acima, na minha interpretação, como (1) e (2) como formas de reduzir o espaço de pesquisa (terminologia de empréstimo da teoria da otimização), onde estou facilitando a descoberta de uma descoberta; e (3) e (4) como usar mais métodos de busca ortogonais que cobrem mais esse espaço de busca toda vez que são aplicados (ou seja, toda vez que uma hipótese é testada). Mas essas são apenas algumas das possíveis causas que eu poderia apresentar, para ajudar a obter uma resposta, há muito mais que sinto falta, tenho certeza.
Essa pergunta é um acompanhamento de uma pergunta anterior que pergunta por que a comparação múltipla é um problema , levantando uma questão semelhante à distinção entre a FWER e a FDR (se eu entendi a pergunta corretamente). Nesta questão, não considero isso uma questão (embora eu estivesse mais inclinado a usar o FDR), ambas as taxas implicam que há um problema ao analisar mais de uma hipótese (mas não vejo a distinção do caso quando Analiso diferentes problemas não relacionados, encontrando uma descoberta para cada um deles com 5% de significância, o que significa que, quando "resolvi" 100 problemas que rejeitam hipóteses nulas, 5 deles - valor esperado - provavelmente estavam errados). A melhor resposta para essa pergunta estava implícito que não havia uma resposta definitiva e talvez também não haja uma para esta pergunta, mas ainda assim seria muito útil (pelo menos para mim) elucidar o máximo possível onde está a causa do erro do MCP vindo de.
( Outra resposta à mesma pergunta sugeriu um artigo que explica os benefícios da perspectiva do modelo multinível bayesiano sobre a perspectiva clássica. Essa é outra abordagem interessante que vale a pena investigar, mas o escopo dessa questão é a estrutura clássica.)
Já existem várias perguntas sobre esse problema, muitas que valem a pena ser lidas (por exemplo, 1 , 2 , 3 , 4 ), que abordam (de diferentes perspectivas) as questões levantadas acima, mas ainda sinto uma resposta mais unificada (se isso é possível) está faltando, daí esta questão, que espero não diminua o (já problemático) SNR .
fonte
Respostas:
Sua intuição está aproximadamente correta, mas pode ajudar a considerar como a comparação múltipla prejudica as suposições do próprio teste de hipótese. Quando você realiza um teste de hipótese clássico, está gerando um valor-p, que é uma medida da evidência contra a hipótese nula. O valor-p é construído de tal maneira que valores mais baixos constituem maior evidência contra o nulo e é distribuído uniformemente sob a hipótese nula . É isso que permite considerar a hipótese nula como implausível para valores de p baixos (em relação ao nível de significância).
Qual é o problema aqui? Bem, o problema é que, embora os valores p de cada um dos testes sejam uniformes sob suas respectivas hipóteses nulas, os valores p ordenados não são uniformes. Ao escolher os valores de p mais baixos que estão abaixo do nível de significância, você não está mais olhando para variáveis aleatórias uniformes sob suas respectivas hipóteses nulas. De fato, para grande , é provável que os valores p mais baixos tenham uma distribuição fortemente concentrada perto de zero e, portanto, é altamente provável que estejam abaixo do seu nível de significância, apesar de (por suposição) todas as hipóteses nulas para o seu valor. testes são verdadeiros.Nk N
Esse fenômeno ocorre independentemente de os valores-p serem independentes ou não e, portanto, ocorre independentemente de você usar os mesmos dados ou dados diferentes para testar essas hipóteses. O problema das comparações múltiplas é que os valores p mais baixos dos testes terão distribuições nulas marginais que não são uniformes . Ajustes como a correção de Bonferroni tentam lidar com isso ajustando os valores de p ou os níveis de significância para criar uma comparação que explique esse fenômeno.N
fonte
Você parece assumir que um pesquisador pode dizer quando uma descoberta é feita. Não é o caso. Mesmo se você "encontrar uma descoberta", nunca poderá ter certeza de que o fez (a menos que seja algum tipo de ser onisciente), porque, por mais embaraçoso que pareça, o que discrimina um alarme falso de uma descoberta na ciência é geralmente algum grau de "confiança" humana na análise.
fonte