Gostaria de agrupar hierarquicamente meus dados, mas, em vez de usar a distância euclidiana, gostaria de usar a correlação. Além disso, como o coeficiente de correlação varia de -1 a 1, com -1 e 1 indicando "co-regulação" em meu estudo, estou tratando -1 e 1 como d = 0. Portanto, meu cálculo é
Eu li em uma pergunta separada (sobre o agrupamento k-means), que você deve converter r em d euclidiano verdadeiro usando o teorema do cosseno:
Qual é a maneira mais precisa de converter a correlação em distância para cluster hierárquico?
Respostas:
Requisitos para armazenamento em cluster hierárquico
O agrupamento hierárquico pode ser usado com medidas arbitrárias de similaridade e dissimilaridade. (A maioria das ferramentas espera uma dissimilaridade, mas permitirá valores negativos - cabe a você garantir se os valores pequenos ou grandes serão os preferidos.)
Somente métodos baseados em centróides ou variância (como o método de Ward) são especiais e devem ser usados com euclidianos ao quadrado. (Para entender o porquê, estude essas ligações com cuidado.)
O vínculo único, o vínculo médio e o vínculo completo não são muito afetados; ainda será o mínimo / médio / máximo das divergências entre pares.
Correlação como medida de distância
Se você pré-processar seus dados ( observações, recursos de ), de modo que cada recurso tenha e (o que não permite recursos constantes!), A correlação será reduzida para cosseno:n p μ = 0 σ= 1
Nas mesmas condições, a distância euclidiana ao quadrado também se reduz ao cosseno:
Portanto, a menos que seus dados sejam degenerados, o uso de correlação para armazenamento em cluster hierárquico deve ser bom. Apenas pré-processe como explicado acima e use a distância euclidiana ao quadrado.
fonte
Only ward's method is special, and should be used with squared Euclidean
. Não é só de Ward. Qualquer método que calcule centróides ou desvios dos centróides precisará da distância euclidiana ou quadrada euclidiana (dependendo da implementação), por uma questão de precisão geométrica. Com a perda de tal e o devido aviso, eles poderiam ser usados com outras distâncias métricas. Esses métodos são centróides, "medianos", de Ward, variância (não confundir com os de Ward!) E outros.