Eu tenho uma matriz de covariância e quero particionar variáveis em clusters usando cluster hierárquico (por exemplo, para classificar uma matriz de covariância).k
Existe uma função de distância típica entre variáveis (ou seja, entre colunas / linhas da matriz de covariância quadrada)?
Ou, se houver mais, há uma boa referência sobre o assunto?
clustering
covariance
distance-functions
distance
Piotr Migdal
fonte
fonte
Respostas:
A covariância (ou correlação ou cosseno) pode ser fácil e naturalmente convertida em distância euclidiana por meio da lei dos cossenos , porque é um produto escalar (= semelhança angular) no espaço euclidiano. Sabendo covariância entre duas variáveis i e j , bem como suas variações implica, automaticamente, sabendo d entre as variáveis: . (Que d 2 i jd2eu j= σ2Eu+ σ2j- 2 c o veu j d2eu j é diretamente proporcional à distância euclidiana quadrada usual : você obtém a última se usar a soma dos quadrados e a soma dos produtos cruzados no lugar das variações e da covariância. É claro que ambas as variáveis devem estar centradas inicialmente: falar em "covariâncias" é um alias para pensar em dados com meios removidos.)
Note que esta fórmula significa que uma covariância negativa é maior distância que uma covariância positiva (e esse é realmente o caso do ponto de vista geométrico, isto é, quando as variáveis são vistas como vetores no espaço sujeito ). Se você não deseja que o sinal da covariância desempenhe um papel, abula o sinal negativo. Ignorar o sinal negativo não é uma operação de "correção manual" e é garantido, quando necessário: se a matriz cov for definida positiva, a matriz abs (cov) também será definida positivamente; e, portanto, as distâncias obtidas pela fórmula acima irá ser verdadeiros euclideanos distâncias (distância Euclidiana é uma espécie particular de métrica de distância).
As distâncias euclidianas são universais em relação ao agrupamento hierárquico : qualquer método desse agrupamento é válido com euclidianos ou euclidianos ao quadrado d . Mas alguns métodos, por exemplo, ligação média ou ligação completa, podem ser usados com qualquer dissimilaridade ou semelhança (não apenas distâncias métricas). Portanto, você pode usar esses métodos diretamente com a matriz cov ou abs (cov) ou - apenas por exemplo - com a matriz de distância max (abs (cov)) - abs (cov) . Obviamente, os resultados do agrupamento dependem potencialmente da natureza exata da (des) similaridade usada.
fonte
Por que não usar a matriz de correlação para fazer o clustering? Assumindo que suas variáveis aleatórias estão centralizadas, calculando a correlação entre variáveis, você está calculando a distância da similaridade do cosseno . Essa distância também é mencionada no seu link. Essa distância pode ser usada para armazenamento em cluster hierárquico. Quanto menor a similaridade 1 - | cosseno |, mais semelhantes são as suas variáveis.
fonte