Usando a correlação como métrica de distância (para cluster hierárquico)

22

Gostaria de agrupar hierarquicamente meus dados, mas, em vez de usar a distância euclidiana, gostaria de usar a correlação. Além disso, como o coeficiente de correlação varia de -1 a 1, com -1 e 1 indicando "co-regulação" em meu estudo, estou tratando -1 e 1 como d = 0. Portanto, meu cálculo é d=1-|r|

Eu li em uma pergunta separada (sobre o agrupamento k-means), que você deve converter r em d euclidiano verdadeiro usando o teorema do cosseno:d=2(1-r)

Qual é a maneira mais precisa de converter a correlação em distância para cluster hierárquico?

Megatron
fonte
3
Sim, uma das maneiras possíveis - e geometricamente verdadeiras - é a última fórmula. Mas você pode desconsiderar o sinal de se fizer sentido para você, de modo que . Na maioria dos casos, você pode eliminar com segurança sem afetar os resultados do cluster. A distância pode ser tratada como euclidiana ao quadrado . Em este segmento em que foi discutido se as medidas de correlação convertido distância são distâncias métricas. d 2 = 2 ( 1 - | r | ) 2rd2=2(1-|r|)2
ttnphns
2
Além disso, você não precisa sempre converter em uma dissimilaridade linear, como a distância euclidiana. Não é tão raro as pessoas fazerem cluster com base diretamente em oucomo na similaridade, é semelhança angularr | r |rr|r|
ttnphns

Respostas:

21

Requisitos para armazenamento em cluster hierárquico

O agrupamento hierárquico pode ser usado com medidas arbitrárias de similaridade e dissimilaridade. (A maioria das ferramentas espera uma dissimilaridade, mas permitirá valores negativos - cabe a você garantir se os valores pequenos ou grandes serão os preferidos.)

Somente métodos baseados em centróides ou variância (como o método de Ward) são especiais e devem ser usados ​​com euclidianos ao quadrado. (Para entender o porquê, estude essas ligações com cuidado.)

O vínculo único, o vínculo médio e o vínculo completo não são muito afetados; ainda será o mínimo / médio / máximo das divergências entre pares.

Correlação como medida de distância

Se você pré-processar seus dados ( observações, recursos de ), de modo que cada recurso tenha e (o que não permite recursos constantes!), A correlação será reduzida para cosseno:npμ=0 0σ=1

Corr(X,Y)=Cov(X,Y)σXσY=E[(X-μX)(Y-μY)]σXσY=E[XY]=1nX,Y

Nas mesmas condições, a distância euclidiana ao quadrado também se reduz ao cosseno:

dEuclid2(X,Y)=(XiYi)2=Xi2+Yi22XiYi=2n2X,Y=2n[1-Corr(X,Y)]

Portanto, a menos que seus dados sejam degenerados, o uso de correlação para armazenamento em cluster hierárquico deve ser bom. Apenas pré-processe como explicado acima e use a distância euclidiana ao quadrado.

Anony-Mousse
fonte
1
Only ward's method is special, and should be used with squared Euclidean. Não é só de Ward. Qualquer método que calcule centróides ou desvios dos centróides precisará da distância euclidiana ou quadrada euclidiana (dependendo da implementação), por uma questão de precisão geométrica. Com a perda de tal e o devido aviso, eles poderiam ser usados ​​com outras distâncias métricas. Esses métodos são centróides, "medianos", de Ward, variância (não confundir com os de Ward!) E outros.
ttnphns
Obrigado, deixei isso mais claro. Eu não estava ciente dessas variações, só pensava em solteiro / médio / completo / enfermaria.
Anony-Mousse
1
,dEum