A distância precisa ser uma "métrica" ​​para que um cluster hierárquico seja válido?

9

Digamos que definimos uma distância, que não é uma métrica , entre N itens.

Com base nessa distância, usamos um cluster hierárquico aglomerativo .

Podemos usar cada um dos algoritmos conhecidos (ligação única / máxima / média etc.) para obter resultados significativos? Em outras palavras, qual é o problema de usá-los se a distância não for uma métrica?

Tal Galili
fonte
O que são "itens" no seu caso? (Estou perguntando se isso tem algo a ver com psicometria, porque, se for esse o caso, eu recomendaria dar uma olhada no agrupamento de itens , ou Revelle, W. Análise hierárquica de agrupamentos e na estrutura interna dos testes , MBR (1979) 14 : 57.)
chl

Respostas:

7

Os requisitos para distâncias dependem do método de armazenamento em cluster hierárquico. Métodos únicos, completos e médios precisam de distâncias para serem não negativos e simétricos. Os métodos de Ward, centróide e mediano precisam de distâncias euclidianas (ao quadrado) (que são ainda mais estreitas que as métricas) para produzir resultados geometricamente significativos.

(Pode-se verificar se sua matriz de distância é euclidiana centralizando-a duplamente [veja minha resposta aqui ] e observando os autovalores; se nenhum autovalor negativo for encontrado, as distâncias convergem no espaço euclidiano.)

ttnphns
fonte
Obrigado. Pergunta adicional: a desigualdade do triângulo deve ser mantida para métodos únicos, completos e médios? e se alguma distância (por exemplo) não é simétrica, que problema isso representa para esses métodos? (Obrigado!) #
21411 Gal Gal Tal
11
Os métodos clássicos de agrupamento hierárquico podem ter apenas uma matriz simétrica: uma distância de A a B = de B a A. Existem outros métodos especiais para lidar com os assimétricos (você pode pesquisar no google). Quanto à desigualdade triangular - não é condição necessária para os métodos mencionados. (No entanto, o senso comum considera a "distância" como algo desigual com a desigualdade, portanto vale a pena impô-la se estiver faltando. Para fazer isso, adicione iterativamente pequena constante às distâncias e verifique. E se você continuar adicionando ao alcançar -lo, então você vai chegar em breve a distâncias euclidianas)
ttnphns
5

Não, a distância não precisa ser uma métrica. Pode, por exemplo, ser um ultramétrico:

d(A,B)max(d(A,C),d(B,C))

As distâncias ultramétricas obtidas de etapas sucessivas no algoritmo de agrupamento podem ser representadas usando dendrogramas, que você pode ter visto neste contexto.

Hong Ooi
fonte
Obrigado Hong. Lembro-me de que os métodos para transformar alguns objetos em hclust exigem que o dendrograma seja ultramétrico - acho que isso tem a ver com o que você escreveu. De qualquer forma, obrigado pela resposta.
Tal Galili