Como aplicar corretamente o teste post-hoc de Nemenyi após o teste de Friedman

11

Estou comparando o desempenho de vários algoritmos em vários conjuntos de dados. Como não é garantido que essas medidas de desempenho sejam distribuídas normalmente, escolhi o Teste de Friedman com o teste post-hoc de Nemenyi, com base em Demšar (2006) .

Encontrei outro artigo que, além de sugerir outros métodos, como o teste Quade com o teste post-hoc subsequente de Shaffer, eles aplicam o teste de Nemenyi de maneira diferente.

Como aplico o teste post-hoc da Nemenyi corretamente?

1. Usando a estatística do intervalo Studentized?

No artigo de Demšar, ele diz para rejeitar a hipótese nula (sem diferença de desempenho de dois algoritmos) se a diferença de classificação média for maior que a distância crítica CD com

CD=qαk(k+1)6N

"onde os valores críticos qα são baseados na estatística do intervalo Studentized dividida por "2.

Após algumas pesquisas, descobri que esses "valores críticos" podem ser consultados para determinados alfas, por exemplo, em uma tabela paraα=0.05 , para graus infinitos de liberdade (na parte inferior de cada tabela).

2. ou usando a distribuição normal?

Quando pensei que sabia o que fazer, encontrei outro artigo que me confundiu novamente, porque eles estavam apenas usando a distribuição normal. Demšar está afirmando algo semelhante na página 12:

As estatísticas de teste para comparar o i-ésimo j-ésimo classificador usando esses métodos são O valor z é usado para encontrar a probabilidade correspondente da tabela de distribuição normal, que é então comparada com um apropriado . Os testes diferem na maneira como ajustam o valor de para compensar várias comparações.

z=(RiRj)k(k+1)6N
αα

Neste parágrafo, ele estava falando sobre a comparação de todos os algoritmos com um algoritmo de controle, mas a observação "difere na maneira como eles se ajustam ... para compensar múltiplas comparações" sugere que isso também deve valer para o teste de Nemenyi.

Então, o que me parece lógico é calcular o valor de p com base na estatística de teste , que é normalmente distribuída, e corrigi-la dividindo por .zk(k1)/2

No entanto, isso gera diferenças de classificação completamente diferentes nas quais rejeitar a hipótese nula. E agora estou preso e não sei qual método aplicar. Estou fortemente inclinado a usar a distribuição normal , porque é mais simples e mais lógico para mim. Também não preciso procurar valores nas tabelas e não estou vinculado a determinados valores de significância.

Por outro lado, nunca trabalhei com a estatística de faixa estudada e não a entendo.

Sentinela
fonte

Respostas:

5

Eu também comecei a olhar para esta pergunta.

Como mencionado anteriormente, quando usamos a distribuição normal para calcular valores de p para cada teste, esses valores de p não levam em consideração vários testes. Para corrigi-lo e controlar a taxa de erro familiar, precisamos de alguns ajustes. Bonferonni, ou seja, dividir o nível de significância ou multiplicar os valores-p brutos pelo número de testes, é apenas uma correção possível. Há um grande número de outras correções de valor p de vários testes que são, em muitos casos, menos conservadoras.

Essas correções de valor-p não levam em consideração a estrutura específica dos testes de hipótese.

Estou mais familiarizado com a comparação pareada dos dados originais, em vez dos dados transformados por classificação, como nos testes de Kruskal-Wallis ou Friedman. Nesse caso, que é o teste Tukey HSD, a estatística de teste para a comparação múltipla é distribuída de acordo com a distribuição de faixas estudadas, que é a distribuição de todas as comparações pareadas sob o pressuposto de amostras independentes. É baseado em probabilidades de distribuição normal multivariada que podem ser calculadas por integração numérica, mas geralmente são usadas em tabelas.

Meu palpite, como não conheço a teoria, é que a distribuição de faixa estudada pode ser aplicada ao caso de testes de classificação de maneira semelhante à das comparações Tukey HSD em pares.

Portanto, o uso de (2) distribuição normal mais correções de múltiplos valores de teste p e o uso de (1) distribuições de faixa estudadas são duas maneiras diferentes de obter uma distribuição aproximada das estatísticas de teste. No entanto, se as suposições para o uso da distribuição de faixa estudada forem atendidas, ela deverá fornecer uma melhor aproximação, pois foi projetada para o problema específico de todas as comparações em pares.

Josef
fonte
1

Até onde eu sei, ao comparar apenas dois algoritmos, Demšar sugere o teste de classificação assinado por Wilcoxon em vez de Friedman + pós -oc. Infelizmente, estou tão confuso quanto você quando se trata de decifrar o que se supõe que dividir por k-1 significa demšar.

5xum
fonte
1
Dividir por (k-1) é quando você compara vários algoritmos com um método de controle. Mas isso é um contra cada um, então NxN. A parte divisória que eu posso entender, mas a relação com a distribuição da faixa Studentizada está além do meu entendimento.
Sentry
@ Sentry: Você deve multiplicar com o fator de ajuste aqui, não multiplicando. Por favor, veja minha resposta acima.
Chris
0

Também me deparei com a questão de calcular o valor-p a partir de uma distribuição t normal ou estudada. Infelizmente, ainda não consigo responder, porque papéis diferentes comunicam métodos diferentes.

No entanto, para calcular os valores de p ajustados, é necessário multiplicar o valor de p não corrigido pelo fator de ajuste, por exemplo, p * (k-1) no caso de comparações com um método de controle ou p * ((k * (k-1 )) / 2) para comparações nxn.

O que você deve dividir pelo fator de ajuste é o valor alfa, se comparado com os p não ajustados.

Chris
fonte