Dado
- um conjunto de dados com instâncias juntamente com classes em que cada instância pertence exatamente a uma classe
- um classificador multiclasse
Após o treinamento e o teste, basicamente tenho uma tabela com a classe verdadeira e a classe prevista para cada instância no conjunto de testes. Portanto, para cada instância, tenho uma correspondência ( ) ou uma falta ( ).
Como posso avaliar a qualidade da partida? O problema é que algumas classes podem ter muitos membros, ou seja, muitas instâncias pertencem a ela. Obviamente, se 50% de todos os pontos de dados pertencem a uma classe e meu classificador final está 50% correto no geral, não ganhei nada. Eu poderia muito bem ter feito um classificador trivial que gera a maior classe, independentemente da entrada.
Existe um método padrão para estimar a qualidade de um classificador com base nos resultados conhecidos do conjunto de testes de correspondências e acertos para cada classe? Talvez seja importante distinguir as taxas de correspondência para cada classe em particular?
A abordagem mais simples que consigo pensar é excluir as correspondências corretas da maior classe. O quê mais?
Respostas:
Como a classificação binária, você pode usar a taxa de erro empírica para estimar a qualidade do seu classificador. Seja um classificador e e sejam respectivamente um exemplo em sua base de dados e em sua classe. Como você disse, quando as classes são desequilibradas, a linha de base não é 50%, mas a proporção da classe maior. Você pode adicionar um peso em cada classe para equilibrar o erro. Seja o peso da classe . Defina os pesos de modo que e defina o erro empírico ponderadog xi yi
Como Steffen disse, a matriz de confusão pode ser uma boa maneira de estimar a qualidade de um classificador. No caso binário, você pode derivar alguma medida dessa matriz, como sensibilidade e especificidade, estimando a capacidade de um classificador para detectar uma classe específica. A fonte do erro de um classificador pode estar de uma maneira específica. Por exemplo, um classificador pode ser muito confiante ao prever um 1, mas nunca dizer errado ao prever um 0. Muitos classificadores podem ser parametrizados para controlar essa taxa (falsos positivos versus falsos negativos) e, em seguida, você está interessado na qualidade do família inteira de classificador, não apenas um. A partir disso, você pode plotar a curva ROC e medir a área sob a curva ROC fornece a qualidade desses classificadores.
As curvas ROC podem ser estendidas para o seu problema de multiclasse. Eu sugiro que você leia a resposta deste tópico .
fonte
Para avaliar os sistemas de classificação de texto de múltiplas vias, utilizo F1 com média e macro médias (medida F). A medida F é essencialmente uma combinação ponderada de precisão e lembre-se disso. Para a classificação binária, as abordagens micro e macro são as mesmas, mas, para o caso de múltiplas vias, acho que elas podem ajudá-lo. Você pode pensar no Micro F1 como uma combinação ponderada de precisão e recall que confere peso igual a todos os documentos, enquanto a Macro F1 oferece peso igual a todas as classes. Para cada um deles, a equação da medida F é a mesma, mas você calcula a precisão e lembra de forma diferente:
onde é normalmente definido como 1. Em seguida,β
onde é verdadeiro positivo, é falso positivo, é falso negativo e é classe.TP FP FN C
fonte
fonte