Tenho uma espécie de pergunta filosófica sobre quando é necessária a correção de comparações múltiplas.
Estou medindo um sinal de variação de tempo contínuo (em momentos discretos). Eventos separados ocorrem de tempos em tempos e eu gostaria de estabelecer se esses eventos têm um efeito significativo no sinal medido.
Então, eu posso pegar o sinal médio que segue um evento e, geralmente, vejo algum efeito lá com um certo pico. Se eu escolher o horário desse pico e fizer um teste t para determinar se é significativo versus quando o evento não ocorrer, preciso fazer a correção de comparação múltipla?
Embora eu tenha realizado apenas um teste t (calculado 1 valor), em minha inspeção visual inicial, selecionei aquele com o maior efeito potencial dentre os (digamos) 15 pontos de tempo pós-atraso diferentes que plotei. Então, preciso fazer uma correção de comparação múltipla para os 15 testes que nunca realizei?
Se eu não usasse a inspeção visual, mas apenas fizesse o teste em cada evento atrasado e escolhesse o mais alto, certamente precisaria corrigir. Estou um pouco confuso sobre se preciso ou não se a seleção do 'melhor atraso' é feita por algum outro critério que não o próprio teste (por exemplo, seleção visual, média mais alta etc.)
Há muito tempo, em uma de minhas primeiras aulas de estatística, eu estava lendo sobre isso em um texto (acho que era uma edição antiga do livro de Cohen sobre a reintegração de posse), onde dizia "essa é uma pergunta sobre a qual pessoas razoáveis podem diferir".
Não está claro para mim que alguém precise corrigir várias comparações, nem, se o fizerem, durante o período ou conjunto de comparações que deve corrigir. Cada artigo? Cada regressão ou ANOVA? Tudo o que eles publicam sobre um assunto? E o que OUTRAS pessoas publicam?
Enquanto você escreve em sua primeira linha, é filosófico.
fonte
Se você está tentando tomar decisões pontuais sobre a realidade e deseja controlar a taxa em que rejeita falsamente a hipótese nula, estará usando o teste de significância de hipótese nula (NHST) e desejará usar a correção para múltiplas comparações. No entanto, como Peter Flom observa em sua resposta, não está claro como definir o conjunto de comparações sobre as quais aplicar a correção. A escolha mais fácil é o conjunto de comparações aplicadas a um determinado conjunto de dados, e essa é a abordagem mais comum.
No entanto, a ciência é discutivelmente melhor concebida como sistema cumulativo, onde decisões pontuais não são necessárias e, de fato, servem apenas para reduzir a eficiência do acúmulo de evidências (reduzindo as evidências obtidas a um único pedaço de informação). Assim, se alguém seguir uma abordagem científica apropriada para a análise estatística, evitando o NHST por ferramentas como razões de probabilidade (possivelmente também abordagens bayesianas), o "problema" de múltiplas comparações desaparecerá.
fonte
Uma possível alternativa à correção, dependendo da sua pergunta, é testar a significância da soma dos valores-p. Você pode até se penalizar por testes que não são feitos adicionando altos valores de p.
Podem ser usadas extensões (que não exigem independência) do método de Fisher (que exigem independência de teste).
Por exemplo. Método de Kost
fonte
Uma coisa muito importante a lembrar é que a correção de testes múltiplos assume testes independentes. Se os dados que sua análise não é independente, as coisas ficam um pouco mais complicadas do que simplesmente corrigir o número de testes realizados, você deve considerar a correlação entre os dados que estão sendo analisados ou sua correção provavelmente será muito conservadora e você será tem uma alta taxa de erro do tipo II. Descobri a validação cruzada, testes de permutação ou bootstrapping podem ser maneiras eficazes de lidar com várias comparações, se usadas corretamente. Outros mencionaram o uso do FDR, mas isso pode gerar resultados incorretos se houver muita independência nos seus dados, pois pressupõe que os valores de p sejam uniformes em todos os testes com valor nulo.
fonte