Quando corrigir valores de p em múltiplas comparações?

11

Receio que perguntas relacionadas não tenham respondido às minhas. Avaliamos o desempenho de> 2 classificadores (aprendizado de máquina). Nossa hipótese nula é que os desempenhos não diferem. Realizamos testes paramétricos (ANOVA) e não paramétricos (Friedman) para avaliar esta hipótese. Se eles são significativos, queremos descobrir quais classificadores diferem em uma missão post-hoc.

Minha pergunta é dupla:

1) É necessária uma correção dos valores de p após o teste de múltiplas comparações? O site da Wikipedia em alemão "Alphafehler Kumulierung" diz que o problema só ocorre se várias hipóteses forem testadas nos mesmos dados. Ao comparar os classificadores (1,2), (1,3), (2,3), os dados se sobrepõem apenas parcialmente. Ainda é necessário corrigir os valores de p?

2) A correção do valor P é freqüentemente usada após o teste em pares com um teste t. Também é necessário ao realizar testes post-hoc especializados, como o teste HSD de Nemenyi (não paramétrico) ou Tukey? Esta resposta diz "não" para o HSD de Tukey: O teste de Tukey HSD corrige várias comparações? . Existe uma regra ou eu tenho que procurar isso para cada teste post-hoc em potencial?

Obrigado!

Chris
fonte
Por que você está realizando os testes ANOVA e Friedman?
Alexis
Trata-se de uma estrutura de teste automatizada que deve fornecer ao revisor uma alternativa paramétrica e não paramétrica, se as suposições paramétricas não forem atendidas.
22414 Chris
1
Sobre os testes omnibus que você mencionou: (A) se seus grupos de dados são independentes, você deve usar o teste ANOVA (paramétrico) ou Kruskal-Wallis (não paramétrico); (B) se seus grupos são dependentes (por exemplo, medidas repetidas), você deve usar o teste ANOVA de medidas repetidas (paramétrico) ou Friedman (não paramétrico). ANOVA (Clássico) e teste de Friedman, como sua alternativa não parece correta.
GegznaV

Respostas:

10

Resposta à pergunta 1
Você precisa ajustar várias comparações se se preocupa com a probabilidade de cometer um erro do tipo I. Uma simples combinação de metáfora / experimento mental pode ajudar:

Imagine que você quer ganhar na loteria. Por incrível que pareça, essa loteria oferece uma chance de 0,05 de vitória (ou seja, 1 em 20). M é o custo do bilhete nesta loteria, o que significa que seu retorno esperado para uma única chamada é M / 20. Agora, ainda mais estranho, imagine que, por razões desconhecidas, esse custo, M , permita que você tenha quantos bilhetes de loteria desejar (ou pelo menos mais de dois). Pensando em si mesmo "quanto mais você joga, mais ganha", você ganha um monte de ingressos. Seu retorno esperado em uma chamada de loteria não é mais M / 20, mas algo um pouco maior. Agora substitua "ganhar na loteria" por "cometer um erro do tipo I."

Se você não se importa com erros e não se importa com as pessoas repetidamente e zombeteiramente direcionando sua atenção para um determinado desenho animado sobre jujubas , vá em frente e não se ajuste a múltiplas comparações.

A questão "mesmos dados" surge nos métodos de correção de erros em toda a família (por exemplo, Bonferroni, Holm-Sidák etc.), uma vez que o conceito de "família" é um tanto vago. No entanto, os métodos de taxa de descoberta falsa (por exemplo, Benjamini e Hochberg, Benjamini e Yeuketeli, etc.) têm uma propriedade de que seus resultados são robustos em diferentes grupos de inferências.


Resposta à pergunta 2
A maioria dos testes em pares exige correção, embora haja diferenças estilísticas e disciplinares no que é chamado de teste. Por exemplo, algumas pessoas se referem a " testes t de Bonferroni " (que é um truque interessante, pois Bonferroni não desenvolveu o teste t nem o ajuste de Bonferroni para comparações múltiplas :). Pessoalmente, acho isso insatisfatório, pois (1) eu gostaria de fazer uma distinção entre realizar um grupo de testes estatísticos e ajustar várias comparações para entender efetivamente as inferências que estou fazendo e (2) quando alguém vem junto com um novo teste de pares baseado em uma definição sólida de , então eu sei que posso realizar ajustes para várias comparações.α

Alexis
fonte
2
+1 para obter uma resposta abrangente e bem-humorada (e para se referir a xkcd). Em particular, você também abordou minha questão ainda não verbalizada de saber se existe uma diferença entre "teste de Bonferroni" e "correção de Bonferroni". No entanto, você se importaria de explicar o problema das múltiplas comparações em termos da descrição do meu problema? Entendo que um classificador é como um grupo de tratamento sem / blue / green / ... jujubas nos quadrinhos.
23714 Chris
@ Chris Você é bem-vindo ... Não tenho muita certeza do que está perguntando. Sim, são necessárias múltiplas comparações. Sim, você pode executar ajustes de FWER ou FDR em qualquer teste emparelhado que retorne valores de (os procedimentos geralmente modificam os valores de ou o nível de rejeição, geral ou sequencialmente). ppp
Alexis
Eu acho que está bem, muito obrigado! Pode levar mais tempo para aplicar o exemplo da loteria ao meu caso de uso, mas eu entendi.
24414 Chris
@ Chris entende que a loteria era apenas uma metáfora. Se você precisar de ajuda para aplicar os métodos FWER ou FDR, consulte as entradas da Wikipedia, procure perguntas relacionadas aqui ou, talvez, faça uma nova pergunta sobre isso. :)
Alexis