Digamos que definimos uma distância, que não é uma métrica , entre N itens.
Com base nessa distância, usamos um cluster hierárquico aglomerativo .
Podemos usar cada um dos algoritmos conhecidos (ligação única / máxima / média etc.) para obter resultados significativos? Em outras palavras, qual é o problema de usá-los se a distância não for uma métrica?
Respostas:
Os requisitos para distâncias dependem do método de armazenamento em cluster hierárquico. Métodos únicos, completos e médios precisam de distâncias para serem não negativos e simétricos. Os métodos de Ward, centróide e mediano precisam de distâncias euclidianas (ao quadrado) (que são ainda mais estreitas que as métricas) para produzir resultados geometricamente significativos.
(Pode-se verificar se sua matriz de distância é euclidiana centralizando-a duplamente [veja minha resposta aqui ] e observando os autovalores; se nenhum autovalor negativo for encontrado, as distâncias convergem no espaço euclidiano.)
fonte
Não, a distância não precisa ser uma métrica. Pode, por exemplo, ser um ultramétrico:
As distâncias ultramétricas obtidas de etapas sucessivas no algoritmo de agrupamento podem ser representadas usando dendrogramas, que você pode ter visto neste contexto.
fonte