O coeficiente de correlação de Matthews ( ) é uma medida para medir a qualidade de uma classificação binária ([Wikipedia] [1]). formulação é fornecida para classificação binária utilizando valores de positivos verdadeiros ( ), falsos positivos ( ), falsos negativos ( ) e negativos verdadeiros ( ), conforme indicado abaixo: T P F P F N T N
I têm um caso onde preciso classificar três classes diferentes, , , e . Posso aplicar a formulação acima para calcular para casos com várias classes depois de calcular os valores de , , e para cada classe, como mostrado abaixo?
Respostas:
Sim, em geral, você pode. Essa abordagem que você deseja usar às vezes é chamada de "Micro-média": primeiro, some todos os
TN
s,FP
s, etc. para cada classe e depois calcule a estatística de interesse.Outra maneira de combinar as estatísticas para classes individuais é usar a chamada "Macro-Média": aqui você primeiro calcula as estatísticas para classes individuais (A vs não A, B vs não B, etc.) e depois calcula a média de eles.
Você pode dar uma olhada aqui para obter mais detalhes. A página fala sobre Precision and Recall, mas acredito que se aplica ao coeficiente de Matthew, bem como a outras estatísticas baseadas em tabelas de contingência.
fonte
A técnica de média de macro funciona bem para precisão, sensibilidade e especificidade. Mas quando tentei na MCC, não deu os resultados adequados. Para mais detalhes sobre cálculos MCC multiclass, consulte:
O código a seguir funcionou para mim:
fonte
O MCC pode ser usado para a classificação binária e multiclasse da Wikipedia e é implementado no sci-kit learn para rótulos binários e multiclasses.
fonte
A MCC foi projetada para classificação binária.
Se você deseja obter uma medida semelhante de um classificador, tente o Kappa de Cohen, que pode ser aplicado à matriz de confusão de várias classes.
fonte