Receio que perguntas relacionadas não tenham respondido às minhas. Avaliamos o desempenho de> 2 classificadores (aprendizado de máquina). Nossa hipótese nula é que os desempenhos não diferem. Realizamos testes paramétricos (ANOVA) e não paramétricos (Friedman) para avaliar esta hipótese. Se eles são significativos, queremos descobrir quais classificadores diferem em uma missão post-hoc.
Minha pergunta é dupla:
1) É necessária uma correção dos valores de p após o teste de múltiplas comparações? O site da Wikipedia em alemão "Alphafehler Kumulierung" diz que o problema só ocorre se várias hipóteses forem testadas nos mesmos dados. Ao comparar os classificadores (1,2), (1,3), (2,3), os dados se sobrepõem apenas parcialmente. Ainda é necessário corrigir os valores de p?
2) A correção do valor P é freqüentemente usada após o teste em pares com um teste t. Também é necessário ao realizar testes post-hoc especializados, como o teste HSD de Nemenyi (não paramétrico) ou Tukey? Esta resposta diz "não" para o HSD de Tukey: O teste de Tukey HSD corrige várias comparações? . Existe uma regra ou eu tenho que procurar isso para cada teste post-hoc em potencial?
Obrigado!
Respostas:
Resposta à pergunta 1
Você precisa ajustar várias comparações se se preocupa com a probabilidade de cometer um erro do tipo I. Uma simples combinação de metáfora / experimento mental pode ajudar:
Se você não se importa com erros e não se importa com as pessoas repetidamente e zombeteiramente direcionando sua atenção para um determinado desenho animado sobre jujubas , vá em frente e não se ajuste a múltiplas comparações.
A questão "mesmos dados" surge nos métodos de correção de erros em toda a família (por exemplo, Bonferroni, Holm-Sidák etc.), uma vez que o conceito de "família" é um tanto vago. No entanto, os métodos de taxa de descoberta falsa (por exemplo, Benjamini e Hochberg, Benjamini e Yeuketeli, etc.) têm uma propriedade de que seus resultados são robustos em diferentes grupos de inferências.
Resposta à pergunta 2
A maioria dos testes em pares exige correção, embora haja diferenças estilísticas e disciplinares no que é chamado de teste. Por exemplo, algumas pessoas se referem a " testes t de Bonferroni " (que é um truque interessante, pois Bonferroni não desenvolveu o teste t nem o ajuste de Bonferroni para comparações múltiplas :). Pessoalmente, acho isso insatisfatório, pois (1) eu gostaria de fazer uma distinção entre realizar um grupo de testes estatísticos e ajustar várias comparações para entender efetivamente as inferências que estou fazendo e (2) quando alguém vem junto com um novo teste de pares baseado em uma definição sólida de , então eu sei que posso realizar ajustes para várias comparações.
fonte