Existem muitas situações em que você pode treinar vários classificadores diferentes ou usar vários métodos diferentes de extração de recursos. Na literatura, os autores geralmente fornecem o erro médio de classificação em um conjunto de divisões aleatórias dos dados (ou seja, após uma validação cruzada duplamente aninhada) e, às vezes, também apresentam variações no erro nas divisões. No entanto, isso por si só não é suficiente para dizer que um classificador é significativamente melhor que outro. Eu já vi muitas abordagens diferentes disso - usando testes qui-quadrado, teste t, ANOVA com testes post-hoc etc.
Que método deve ser usado para determinar a significância estatística? Subjacente a essa pergunta está: Que suposições devemos fazer sobre a distribuição das pontuações de classificação?
Respostas:
Além da excelente resposta de @jb., Deixe-me acrescentar que você pode usar o teste de McNemar no mesmo conjunto de testes para determinar se um classificador é significativamente melhor que o outro. Isso funcionará apenas para problemas de classificação (o que o trabalho original de McNemar chama de "característica dicotômica"), significando que os classificadores acertam ou erram, sem espaço no meio.
fonte
Como a distribuição dos erros de classificação é uma distribuição binária (existe uma classificação incorreta ou não existe) --- eu diria que o uso do qui-quadrado não é sensato.
Também é sensato comparar as eficiências dos classificadores que funcionam nos mesmos conjuntos de dados. É sensato --- 'No teorema do almoço grátis' afirma que todos os modelos têm a mesma eficiência média em todos os conjuntos de dados; portanto, qual modelo parecerá melhor dependerá apenas de quais conjuntos de dados foram escolheu treiná-los http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .
Se você estiver comparando a eficiência dos modelos A e B sobre o conjunto de dados D, acho que a eficiência média + média é suficiente para fazer uma escolha.
Além disso, se alguém tem muitos modelos que têm eficiência ressonável (e são linearmente independentes um do outro), prefiro construir um modelo de conjunto do que apenas escolher o melhor modelo.
fonte
Eu recomendo o artigo de Tom Dietterich intitulado "Testes estatísticos aproximados para comparar algoritmos de aprendizado de classificação supervisionada". Aqui está o perfil do artigo no CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Do resumo: "Este artigo analisa cinco testes estatísticos aproximados para determinar se um algoritmo de aprendizado é superior a outro em uma tarefa de aprendizado específica. Esses testes são comparados experimentalmente para determinar sua probabilidade de detectar incorretamente uma diferença quando não existe diferença (erro tipo I O teste de McNemar mostra baixo erro de Tipo I. ... "
fonte
IMHO não deve haver diferenças entre a distribuição de pontuações e a distribuição de qualquer outro tipo de dados. Então, basicamente tudo o que você tem que verificar é se seus dados são distribuídos normalmente ou não ver aqui . Além disso, existem ótimos livros que lidam completamente com essa questão, veja aqui (ou seja, todos: eles testam se o resultado de dois classificadores é significativamente diferente. E, se o fazem, podem ser combinados no modelo de um conjunto)
fonte
Não existe um teste único apropriado para todas as situações; Posso recomendar o livro "Avaliando algoritmos de aprendizagem", de Nathalie Japkowicz e Mohak Shah, Cambridge University Press, 2011. O fato de um livro de quase 400 páginas poder ser escrito sobre esse tópico sugere que não é uma questão direta. Descobri muitas vezes que não existe um teste que realmente atenda às necessidades do meu estudo, por isso é importante ter uma boa noção das vantagens e desvantagens de qualquer método que seja usado eventualmente.
Um problema comum é que, para grandes conjuntos de dados, uma diferença estatisticamente significativa pode ser obtida com um tamanho de efeito que não tem significado prático.
fonte