Estou tentando avaliar o desempenho do cluster. Eu estava lendo a documentação do skiscit-learn em métricas . Eu não entendo a diferença entre ARI e AMI. Parece-me que eles fazem a mesma coisa de duas maneiras diferentes.
Citando a partir da documentação:
Dado o conhecimento das atribuições básicas da classe verdade labels_true e das atribuições do nosso algoritmo de agrupamento das mesmas amostras labels_pred, o índice Rand ajustado é uma função que mede a similaridade das duas atribuições, ignorando permutações e com a normalização do acaso.
vs
Dado o conhecimento das atribuições básicas da classe verdade labels_true e das atribuições do nosso algoritmo de agrupamento das mesmas amostras labels_pred, as informações mútuas são uma função que mede a concordância das duas atribuições, ignorando as permutações ... A AMI foi proposta mais recentemente e é normalizada contra chance.
Devo usar os dois na minha avaliação de cluster ou isso seria redundante?
fonte
Respostas:
São duas de uma dúzia que tentam comparar agrupamentos.
Mas eles não são equivalentes. Eles usam teoria diferente.
Às vezes, o IRA pode preferir um resultado e o IAM outro. Mas muitas vezes eles concordam em preferência (não nos números).
fonte
A regra de ouro é:
Eu trabalhei neste tópico. Referência: Ajustando para Medidas de Comparação de Cluster de Chance
fonte