As correções de comparações múltiplas são necessárias para “comparações múltiplas” informais / visuais?

9

Tenho uma espécie de pergunta filosófica sobre quando é necessária a correção de comparações múltiplas.

Estou medindo um sinal de variação de tempo contínuo (em momentos discretos). Eventos separados ocorrem de tempos em tempos e eu gostaria de estabelecer se esses eventos têm um efeito significativo no sinal medido.

Então, eu posso pegar o sinal médio que segue um evento e, geralmente, vejo algum efeito lá com um certo pico. Se eu escolher o horário desse pico e fizer um teste t para determinar se é significativo versus quando o evento não ocorrer, preciso fazer a correção de comparação múltipla?

Embora eu tenha realizado apenas um teste t (calculado 1 valor), em minha inspeção visual inicial, selecionei aquele com o maior efeito potencial dentre os (digamos) 15 pontos de tempo pós-atraso diferentes que plotei. Então, preciso fazer uma correção de comparação múltipla para os 15 testes que nunca realizei?

Se eu não usasse a inspeção visual, mas apenas fizesse o teste em cada evento atrasado e escolhesse o mais alto, certamente precisaria corrigir. Estou um pouco confuso sobre se preciso ou não se a seleção do 'melhor atraso' é feita por algum outro critério que não o próprio teste (por exemplo, seleção visual, média mais alta etc.)

tropeço
fonte

Respostas:

11

Tecnicamente, quando você faz uma pré-seleção visual de onde fazer o teste, você já deve corrigir isso: seus olhos e cérebro já ignoram algumas incertezas nos dados, que você não considera se simplesmente fizer o teste naquele momento .

Imagine que seu 'pico' é realmente um platô, e você escolhe a diferença de 'pico', depois executa um teste e isso acaba sendo pouco significativo. Se você executasse o teste um pouco mais para a esquerda ou para a direita, o resultado poderia mudar. Dessa forma, você deve prestar contas do processo de pré-seleção: você não tem muita certeza de que declara! Você está usando os dados para fazer a seleção; portanto, você está efetivamente usando as mesmas informações duas vezes.

Obviamente, na prática, é muito difícil explicar algo como um processo de seleção manual, mas isso não significa que você não deva (ou pelo menos aceite / indique os intervalos de confiança resultantes / resultados dos testes com um pouco de sal).

Conclusão : você deve sempre corrigir várias comparações se fizer várias comparações, independentemente de como selecionou essas comparações. Se eles não foram selecionados antes de ver os dados, você deve corrigir isso também.

Nota: uma alternativa para corrigir a pré-seleção manual (por exemplo, quando é praticamente impossível) é provavelmente indicar seus resultados para que eles obviamente contenham referência à seleção manual. Mas isso não é 'pesquisa reproduzível', eu acho.

Nick Sabbe
fonte
11
Sempre fazendo correções, no entanto, aumenta a taxa de erro do tipo II. Se você tiver todos os resultados significativos antes da correção, poderá perdê-los após a correção, sem considerar as baixas chances de obter todos os resultados significativos. Isso pode depender do custo de um erro do tipo I ou II no seu contexto.
Etienne Low-Décarie
Nick deu a resposta que eu gostaria de dar se fosse o primeiro a responder. No entanto, na configuração inicial, você (mkpitas) disse que se realmente executasse os 15 testes, não teria que fazer a correção da multiplicidade. Não vejo por que você diria isso. Penso que, nesse caso, a necessidade de correção da multiplicidade se torna mais óbvia. @ etienne seu ponto se aplica à correção FWER, que é muito rigorosa no controle de erros do tipo I. Se você usa o FDR, não sacrifica tanto poder.
Michael R. Chernick
8

Há muito tempo, em uma de minhas primeiras aulas de estatística, eu estava lendo sobre isso em um texto (acho que era uma edição antiga do livro de Cohen sobre a reintegração de posse), onde dizia "essa é uma pergunta sobre a qual pessoas razoáveis ​​podem diferir".

Não está claro para mim que alguém precise corrigir várias comparações, nem, se o fizerem, durante o período ou conjunto de comparações que deve corrigir. Cada artigo? Cada regressão ou ANOVA? Tudo o que eles publicam sobre um assunto? E o que OUTRAS pessoas publicam?

Enquanto você escreve em sua primeira linha, é filosófico.

Peter Flom - Restabelece Monica
fonte
4
Você está certo que há uma pergunta sobre quantas comparações estão sendo feitas, mas não acho que isso implique em sua conclusão. Pessoas razoáveis ​​podem diferir porque têm objetivos diferentes e avaliações diferentes (funções de perda) para os possíveis resultados. Se você deve corrigir várias comparações, isso ocorre porque leva a uma melhor perda esperada. Como tal, essa é uma questão intensamente prática, não mera "filosofia", e existem maneiras racionais de resolvê-la com as quais pessoas razoáveis ​​podem concordar.
whuber
2
@whuber você certamente está certo em algumas situações. Às vezes, há uma função de perda sensível, embora muitas vezes seja difícil obter uma declaração explícita. Mas outras vezes, por exemplo, no trabalho exploratório, tenho problemas para ver como é possível qualquer função de perda. Certamente, toda a ideia da função de perda nos afasta da estatura do tipo graal de p = 0,05, e da suposição típica de que o poder = 0,8 ou 0,9 é bom o suficiente e para (em minha opinião) a idéia mais sensata que nós os estabelecemos por motivos mais substantivos.
Peter Flom - Restabelece Monica
11
Obrigado por esclarecer o escopo e o espírito de sua resposta, Peter.
whuber
4
Fico furioso quando as pessoas dizem que o teste de multiplicidade não importa. Vejo essa atitude expressa com muita frequência na pesquisa médica. Você pode apontar para muitos documentos que chegaram a conclusões incorretas porque a multiplicidade foi ignorada. É fundamental não publicar trabalhos com conclusões erradas na medicina, pois afeta a maneira como os pacientes são tratados e a vida em risco. Multiplicidade contribui para o viés de publicação (porque quando um problema é estudado muitas vezes apenas os estudos com resultados significativos são publicados), que é um problema sério na análise meta,
Michael R. Chernick
11
@ MichaelChernick, eu concordo - é muito problemático quando as pessoas ignoram várias correções de teste. No entanto, acho que Peter traz um bom argumento - qual deve ser o escopo dos vários testes? Todos os testes foram feitos em um único artigo? Todos os testes foram feitos com um único conjunto de dados? Todos os testes realizados desde o início dos tempos? Não parece haver uma resposta claramente correta.
Macro
4

Se você está tentando tomar decisões pontuais sobre a realidade e deseja controlar a taxa em que rejeita falsamente a hipótese nula, estará usando o teste de significância de hipótese nula (NHST) e desejará usar a correção para múltiplas comparações. No entanto, como Peter Flom observa em sua resposta, não está claro como definir o conjunto de comparações sobre as quais aplicar a correção. A escolha mais fácil é o conjunto de comparações aplicadas a um determinado conjunto de dados, e essa é a abordagem mais comum.

No entanto, a ciência é discutivelmente melhor concebida como sistema cumulativo, onde decisões pontuais não são necessárias e, de fato, servem apenas para reduzir a eficiência do acúmulo de evidências (reduzindo as evidências obtidas a um único pedaço de informação). Assim, se alguém seguir uma abordagem científica apropriada para a análise estatística, evitando o NHST por ferramentas como razões de probabilidade (possivelmente também abordagens bayesianas), o "problema" de múltiplas comparações desaparecerá.

Mike Lawrence
fonte
1

Uma possível alternativa à correção, dependendo da sua pergunta, é testar a significância da soma dos valores-p. Você pode até se penalizar por testes que não são feitos adicionando altos valores de p.

Podem ser usadas extensões (que não exigem independência) do método de Fisher (que exigem independência de teste).

Por exemplo. Método de Kost

Etienne Low-Décarie
fonte
Estes são exemplos de procedimentos usados ​​na metanálise quando os estudos individuais fornecem apenas valores de p ou os dados não podem ser combinados, mas cada estudo tem um valor de p calculado. Também o método de combinação de Fisher e o inverso normal são formas de construir regras de parada em projetos adaptativos.
Michael R. Chernick
1

Uma coisa muito importante a lembrar é que a correção de testes múltiplos assume testes independentes. Se os dados que sua análise não é independente, as coisas ficam um pouco mais complicadas do que simplesmente corrigir o número de testes realizados, você deve considerar a correlação entre os dados que estão sendo analisados ​​ou sua correção provavelmente será muito conservadora e você será tem uma alta taxa de erro do tipo II. Descobri a validação cruzada, testes de permutação ou bootstrapping podem ser maneiras eficazes de lidar com várias comparações, se usadas corretamente. Outros mencionaram o uso do FDR, mas isso pode gerar resultados incorretos se houver muita independência nos seus dados, pois pressupõe que os valores de p sejam uniformes em todos os testes com valor nulo.

Matt
fonte
2
p