Gostaria de comparar dois classificadores diferentes para um problema de classificação de texto em várias classes que usa grandes conjuntos de dados de treinamento. Duvido que eu deva usar curvas ROC ou curvas de aprendizado para comparar os dois classificadores.
Por um lado, as curvas de aprendizado são úteis para decidir o tamanho do conjunto de dados de treinamento, já que é possível encontrar o tamanho do conjunto de dados no qual o classificador interrompe o aprendizado (e talvez degrada). Portanto, o melhor classificador nesse caso pode ser aquele que atinge a maior precisão com o menor tamanho de conjunto de dados.
Por outro lado, as curvas ROC permitem encontrar um ponto com o compromisso certo entre sensibilidade / especificidade. O melhor classificador nesse caso é o mais próximo da parte superior esquerda, com o TPR mais alto para qualquer FPR.
Devo usar os dois métodos de avaliação? É possível que um método com uma melhor curva de aprendizado tenha uma curva ROC pior e vice-versa?
fonte
Respostas:
A curva de aprendizado é apenas uma ferramenta de diagnóstico, informando com que rapidez o seu modelo aprende e se toda a sua análise não está presa em uma área peculiar de conjuntos muito pequenos / conjunto muito pequeno (se aplicável). A única parte desse gráfico que é interessante para a avaliação do modelo é o final, ou seja, o desempenho final - mas isso não precisa que um gráfico seja relatado.
Selecionar um modelo com base em uma curva de aprendizado conforme você esboçou sua pergunta é uma péssima idéia, porque é provável que você selecione um modelo que melhor se adapte a um conjunto de amostras muito pequeno.
Sobre ROCs ... A curva ROC é um método para avaliar modelos binários que produzem uma pontuação de confiança de que um objeto pertence a uma classe; possivelmente também para encontrar os melhores limites para convertê-los em classificadores reais.
O que você descreve é uma idéia para plotar o desempenho de seus classificadores como um gráfico de dispersão de TPR / FPR no espaço ROC e usar o critério do canto esquerdo mais próximo ao topo esquerdo para selecionar o que é melhor equilibrado entre gerar alarmes falsos e erros - - este objetivo em particular pode ser alcançado de maneira mais elegante, basta selecionar o modelo com a melhor pontuação F (média harmônica de precisão e recuperação).
fonte