Quais são as distâncias entre variáveis ​​que formam uma matriz de covariância?

11

Eu tenho uma matriz de covariância e quero particionar variáveis ​​em clusters usando cluster hierárquico (por exemplo, para classificar uma matriz de covariância).kn×nk

Existe uma função de distância típica entre variáveis ​​(ou seja, entre colunas / linhas da matriz de covariância quadrada)?

Ou, se houver mais, há uma boa referência sobre o assunto?

Piotr Migdal
fonte
Por que você deseja usar o cluster hierárquico em variáveis? Geralmente, pensamos em uma matriz de dados , com variáveis ​​em colunas e observações em linhas. Se você deseja procurar agrupamentos latentes, pode tentar, por exemplo, agrupamento hierárquico em linhas / observações ou, por exemplo, análise fatorial em colunas / variáveis. X
gung - Restabelece Monica
@Piotr, Sim, a covariância (ou correlação ou cosseno) pode ser fácil e naturalmente convertida em distância euclidiana, porque é um produto escalar (= semelhança do tipo angular). Conhecer a covariância entre duas variáveis ​​e suas variações implica automaticamente conhecer d entre as variáveis: . d2=σ12+σ222cov
ttnphns
Observe que esta fórmula significa que uma covariância negativa é maior distância que uma covariância positiva (e esse é realmente o caso do ponto de vista geométrico). Se você não deseja que o sinal da covariância desempenhe um papel, abula o sinal negativo.
ttnphns
@gung É uma matriz simétrica, portanto, filas ~ colunas. Para mim, é crucial dividi-lo em conjuntos de variáveis, para não 'rotacioná-las' com análise fatorial (na verdade, não estou trabalhando com uma matriz cov. Padrão, mas com uma matriz complexa (matriz de densidade na mecânica quântica)).
Piotr Migdal
@ttnphns Obrigado. O que me incomoda é que eu quero separar variáveis ​​não correlacionadas - a correlação negativa é para mim (quase) tão boa quanto a positiva.
Piotr Migdal

Respostas:

13

A covariância (ou correlação ou cosseno) pode ser fácil e naturalmente convertida em distância euclidiana por meio da lei dos cossenos , porque é um produto escalar (= semelhança angular) no espaço euclidiano. Sabendo covariância entre duas variáveis i e j , bem como suas variações implica, automaticamente, sabendo d entre as variáveis: . (Que d 2 i jdij2=σi2+σj22covijdij2é diretamente proporcional à distância euclidiana quadrada usual : você obtém a última se usar a soma dos quadrados e a soma dos produtos cruzados no lugar das variações e da covariância. É claro que ambas as variáveis ​​devem estar centradas inicialmente: falar em "covariâncias" é um alias para pensar em dados com meios removidos.)

Note que esta fórmula significa que uma covariância negativa é maior distância que uma covariância positiva (e esse é realmente o caso do ponto de vista geométrico, isto é, quando as variáveis ​​são vistas como vetores no espaço sujeito ). Se você não deseja que o sinal da covariância desempenhe um papel, abula o sinal negativo. Ignorar o sinal negativo não é uma operação de "correção manual" e é garantido, quando necessário: se a matriz cov for definida positiva, a matriz abs (cov) também será definida positivamente; e, portanto, as distâncias obtidas pela fórmula acima irá ser verdadeiros euclideanos distâncias (distância Euclidiana é uma espécie particular de métrica de distância).

As distâncias euclidianas são universais em relação ao agrupamento hierárquico : qualquer método desse agrupamento é válido com euclidianos ou euclidianos ao quadrado d . Mas alguns métodos, por exemplo, ligação média ou ligação completa, podem ser usados ​​com qualquer dissimilaridade ou semelhança (não apenas distâncias métricas). Portanto, você pode usar esses métodos diretamente com a matriz cov ou abs (cov) ou - apenas por exemplo - com a matriz de distância max (abs (cov)) - abs (cov) . Obviamente, os resultados do agrupamento dependem potencialmente da natureza exata da (des) similaridade usada.

ttnphns
fonte
dEuj2dEuj2
@ Olá, adeus, sim, eu implico duas variáveis ​​(vetores) com médias iguais - na verdade, com médias removidas, em primeira instância.
ttnphns
3

Por que não usar a matriz de correlação para fazer o clustering? Assumindo que suas variáveis ​​aleatórias estão centralizadas, calculando a correlação entre variáveis, você está calculando a distância da similaridade do cosseno . Essa distância também é mencionada no seu link. Essa distância pode ser usada para armazenamento em cluster hierárquico. Quanto menor a similaridade 1 - | cosseno |, mais semelhantes são as suas variáveis.

Jorge Banuelos
fonte
d(Eu,j)=1-UMAEuj2/(UMAEuEuUMAjj)
3
Ah, desculpe pelo mal-entendido. A melhor fonte que conheço é essa . Eles estudam a qualidade de várias métricas (que usam correlação) com cluster hierárquico. Para cluster hierárquico, normalmente tento muitas métricas e vejo qual funciona melhor para meus objetivos e dados específicos.
Jorge Banuelos
o link parece não funcionar mais?
Matifou 24/01