Qual é a maneira correta de testar a importância dos resultados da classificação

21

Existem muitas situações em que você pode treinar vários classificadores diferentes ou usar vários métodos diferentes de extração de recursos. Na literatura, os autores geralmente fornecem o erro médio de classificação em um conjunto de divisões aleatórias dos dados (ou seja, após uma validação cruzada duplamente aninhada) e, às vezes, também apresentam variações no erro nas divisões. No entanto, isso por si só não é suficiente para dizer que um classificador é significativamente melhor que outro. Eu já vi muitas abordagens diferentes disso - usando testes qui-quadrado, teste t, ANOVA com testes post-hoc etc.

Que método deve ser usado para determinar a significância estatística? Subjacente a essa pergunta está: Que suposições devemos fazer sobre a distribuição das pontuações de classificação?

tdc
fonte
2
Você poderia postar artigos de exemplo com: "Eu já vi muitas abordagens diferentes para isso - usando testes qui-quadrado, teste t, ANOVA com testes post-hoc etc."? Estou realmente interessado nisso.
jb.

Respostas:

9

Além da excelente resposta de @jb., Deixe-me acrescentar que você pode usar o teste de McNemar no mesmo conjunto de testes para determinar se um classificador é significativamente melhor que o outro. Isso funcionará apenas para problemas de classificação (o que o trabalho original de McNemar chama de "característica dicotômica"), significando que os classificadores acertam ou erram, sem espaço no meio.

carlosdc
fonte
E no cenário em que o classificador pode passar? Como diz ele não sabe. Você ainda pode usar o teste de McNemar?
S0rin
5

Como a distribuição dos erros de classificação é uma distribuição binária (existe uma classificação incorreta ou não existe) --- eu diria que o uso do qui-quadrado não é sensato.

Também é sensato comparar as eficiências dos classificadores que funcionam nos mesmos conjuntos de dados. É sensato --- 'No teorema do almoço grátis' afirma que todos os modelos têm a mesma eficiência média em todos os conjuntos de dados; portanto, qual modelo parecerá melhor dependerá apenas de quais conjuntos de dados foram escolheu treiná-los http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .

Se você estiver comparando a eficiência dos modelos A e B sobre o conjunto de dados D, acho que a eficiência média + média é suficiente para fazer uma escolha.

Além disso, se alguém tem muitos modelos que têm eficiência ressonável (e são linearmente independentes um do outro), prefiro construir um modelo de conjunto do que apenas escolher o melhor modelo.

jb.
fonte
Mas para um único classificador, você acaba com um conjunto de pontuações (por exemplo, MSE acima de 100 divisões), que podem estar no intervalo [0,1], por exemplo. Eu acho que seria muito caro pegar os resultados de cada execução e analisá-los.
tdc
Sim. Mas, neste caso, mean + stddev é suficiente para testar se um é significativamente melhor que o outro, como em qualquer outra medida.
jb.
2
Eu não tenho tanta certeza. Meio & stddev assume gaussianidade para começar, e em segundo lugar este não leva em conta a forma como muitas comparações estão sendo feitas (por exemplo Bonferroni correção pode ser necessário)
tdc
1
É o mesmo na teoria básica da medição. Vamos supor que temos um micrômetro e queremos verificar se duas hastes têm o mesmo diamater, fazemos 100 medições de ambas as hastes e verificamos se a média + stddev se sobrepõem. Em ambos os casos (medição de haste e métrica do modelo), assumimos apenas a distribuição gaussiana dos resultados, apenas um argumento sensível é o teorema do limite central .
jb.
3

Eu recomendo o artigo de Tom Dietterich intitulado "Testes estatísticos aproximados para comparar algoritmos de aprendizado de classificação supervisionada". Aqui está o perfil do artigo no CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Do resumo: "Este artigo analisa cinco testes estatísticos aproximados para determinar se um algoritmo de aprendizado é superior a outro em uma tarefa de aprendizado específica. Esses testes são comparados experimentalmente para determinar sua probabilidade de detectar incorretamente uma diferença quando não existe diferença (erro tipo I O teste de McNemar mostra baixo erro de Tipo I. ... "

Eric Ringger
fonte
2

IMHO não deve haver diferenças entre a distribuição de pontuações e a distribuição de qualquer outro tipo de dados. Então, basicamente tudo o que você tem que verificar é se seus dados são distribuídos normalmente ou não ver aqui . Além disso, existem ótimos livros que lidam completamente com essa questão, veja aqui (ou seja, todos: eles testam se o resultado de dois classificadores é significativamente diferente. E, se o fazem, podem ser combinados no modelo de um conjunto)

Dov
fonte
Eu acho que eles provavelmente não serão distribuídos normalmente. No caso usual, as pontuações serão positivas e inclinadas em direção a uma extremidade do intervalo (1 ou 0, dependendo se você estiver usando precisão ou erro como medida).
tdc 9/02/12
@ tdc: neste caso, a distribuição da função (número de erros de classificação) -> (número de modelos com esse número de erros de classificação) seria muitas vezes uma distribuição de poisson semelhante à IMHO.
jb.
@Dov: Testar qual modelo é significativamente melhor (que é a questão do OP) e testar se são diferentes é uma coisa bem diferente.
jb.
@jb. obrigado. mas eu disse que significativamente diferente, não é melhor ...
Dov
@ Dov, seu primeiro link está quebrado - não sei dizer para onde deve apontar.
Tamzin Blake
2

Não existe um teste único apropriado para todas as situações; Posso recomendar o livro "Avaliando algoritmos de aprendizagem", de Nathalie Japkowicz e Mohak Shah, Cambridge University Press, 2011. O fato de um livro de quase 400 páginas poder ser escrito sobre esse tópico sugere que não é uma questão direta. Descobri muitas vezes que não existe um teste que realmente atenda às necessidades do meu estudo, por isso é importante ter uma boa noção das vantagens e desvantagens de qualquer método que seja usado eventualmente.

Um problema comum é que, para grandes conjuntos de dados, uma diferença estatisticamente significativa pode ser obtida com um tamanho de efeito que não tem significado prático.

Dikran Marsupial
fonte