Este é um acompanhamento para esta pergunta. Atualmente, estou tentando implementar o índice C para encontrar um número quase ideal de clusters de uma hierarquia de clusters. Eu faço isso calculando o Índice C para cada etapa do cluster hierárquico (aglomerativo). O problema é que o índice C é mínimo (0 para ser exato) para agrupamentos muito degenerados. Considere isto:
Nesse caso, é a soma de todas as distâncias entre pares de observações no mesmo cluster em todos os clusters. Seja o número desses pares. e são as somas de distâncias mais baixas / mais altas em todos os pares de observações. Na primeira etapa do cluster hierárquico, as duas observações mais próximas (distância mínima) são mescladas em um cluster. Seja a distância entre essas observações. Agora, há um par de observações no mesmo cluster, então (todos os outros clusters são singletons). Consequentemente . O problema é que também é igual a, porque é a menor distância (é por isso que as observações foram mescladas primeiro). Portanto, para este caso, o C-Index é sempre 0. Ele permanece 0 enquanto apenas os clusters singleton são mesclados. Isso significa que o agrupamento ideal de acordo com o C-Index consistiria sempre em um grupo de clusters contendo duas observações e os demais singletons. Isso significa que o C-Index não é aplicável ao cluster hierárquico? Estou fazendo algo errado? Pesquisei bastante, mas não encontrei nenhuma explicação adequada. Alguém pode me indicar algum recurso disponível gratuitamente na internet? Ou, se não, pelo menos um livro que eu possa tentar obter na minha biblioteca da universidade?
Desde já, obrigado!
fonte
Respostas:
Este pode ser um dos casos em que há mais arte do que ciência no agrupamento. Sugiro que você deixe seu algoritmo de clustering funcionar por um curto período de tempo antes de permitir que os cálculos do Índice C entrem em ação. "Pouco tempo" pode ser após o processamento de alguns pares, justamente quando ele começa a exceder 0 ou alguma outra heurística. (Afinal, você não espera parar em 1 ou 2 clusters, caso contrário, um algoritmo de separação diferente pode ter sido implantado.)
Para uma recomendação de livro, posso sugerir:
Você pode digitalizar / pesquisar o conteúdo disponível no Google Livros para ver se ele pode atender às suas necessidades. Funcionou como uma referência para mim no passado.
fonte