Sobre correlação copenética para agrupamento de dendrogramas

10

Considere o contexto de um cluster de dendrograma. Vamos chamar de divergências originais as distâncias entre os indivíduos. Após a construção do dendrograma, definimos a dissimilaridade copenética entre dois indivíduos como a distância entre os grupos aos quais esses indivíduos pertencem.

Algumas pessoas consideram que a correlação entre as dissimilaridades originais e as dissimilaridades copenéticas (denominada correlação copenética ) é um "índice de adequação" da classificação. Isso parece totalmente intrigante para mim. Minha objeção não se baseia na escolha particular da correlação de Pearson, mas na idéia geral de que qualquer ligação entre as dissimilaridades originais e as dissimilaridades copenéticas possa estar relacionada à adequação da classificação.

Você concorda comigo ou pode apresentar algum argumento que suporte o uso da correlação copenética como índice de adequação para a classificação do dendrograma?

Stéphane Laurent
fonte
Você não explica sua objeção ao (bastante intuitivo) general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. A classificação deve refletir divergências originais. A característica básica da classificação dendrogramica para fazer isso é via dissimilaridade copenética. Existe smth. errado?
26412 ttnphns
11
A propósito, não se deve misturar o conceito de agrupamento hierárquico (aglometativo) com a classificação hierárquica (dendrramática) . O agrupamento produz seu dendrograma como um relatório de processo ; não afirma que seja um resultado de classificação hierárquica .
26412 ttnphns
11
A correlação copenética foi proposta apenas para classificações "dogmáticas" - onde a classificação deve refletir dissimilaridades aos pares, daí a noção de utilidade da correlação (copenética) segue imitantemente.
26412 ttnphns
2
Você pode querer ler este papel na correlação cophenetic
ttnphns
3
@ StéphaneLaurent Não tenho nada para contribuir como resposta à sua pergunta, mas tenho lido o diálogo. Nada do que você disse me pareceu ofensivo. Você também disse que não sabia a diferença entre classificação e agrupamento e não vi essa pergunta simples respondida. É a diferença entre o que as pessoas que aprendem a máquina chamam de aprendizado supervisionado e não supervisionado. Na classificação, você conhece todos os rótulos de classe para seus dados e usa essas informações para construir uma regra de classificação para casos futuros que não possuem rótulos. No cluster, você não tem rotulagem.
Michael R. Chernick

Respostas:

2

... é um "índice de adequação" da classificação

Para mim, não está claro o que isso significa. Do jeito que eu entendi, é que

a correlação entre as dissimilaridades originais e as dissimilaridades copenéticas (denominadas correlação copenética)

é uma medida da estrutura hierárquica entre as observações , ou seja, suas distâncias. Isto é, as diferenças entre observações em um cluster diferente são preferencialmente semelhantes. Considerando os conjuntos de dados A e B agrupados usando distância euclidiana e ligação completa ... insira a descrição da imagem aqui ... mesmo sem dar uma olhada no mapa de distância copenética ou computar correlação copenética, pode-se ver que a correlação copenética de A é maior que a de B Em uma hierarquia, existem níveis. Portanto, o CC informa se as distâncias das observações no mesmo nível (cluster) são semelhantes.

Por uma questão de completude: As correlações copenéticas são CC (A) = 0,936 e CC (B) = 0,691


fonte
11
Eu gostaria de ser mais especialista nisso. Não sigo exatamente o seu exemplo com os mapas de calor. O que você vê que torna óbvio o CC (A)> o CC (B)? Por exemplo, se os triângulos superiores eram distâncias copenéticas e os triângulos inferiores eram distâncias originais, e ambos exibiam padrões semelhantes, então eu reconheceria que o CC seria alto etc. etc. . É só que A naturalmente dará origem a melhores agrupamentos e, portanto, o CC resultante terá que acabar combinando bem?
gung - Restabelece Monica