Clustering com medidas de distância assimétricas

9

Como você agrupa um recurso com uma medida de distância assimétrica?

Por exemplo, digamos que você esteja agrupando um conjunto de dados com dias da semana como um recurso - a distância de segunda a sexta-feira não é a mesma que a distância de sexta a segunda-feira.

Como você incorpora isso na medida de distância do algoritmo de agrupamento?

Michael
fonte

Respostas:

3

Se a distância MF for assimétrica porque o futuro é diferente do passado, é necessário um cluster assimétrico genuíno. Primeiro, uma função de distância assimétrica deve ser definida.

Uma maneira de agrupar assimétricas, dada uma função de distância, é incorporar os dados originais em um novo espaço de coordenadas. Veja "Estruturas geométricas de alguns modelos não distantes para MDS assimétrico", de Naohito Chino e Kenichi Shiraiwa, Behaviormetrika, 1992 ( pdf ). Isso se chama HCM (Modelo Canônico Hermitiano).

Encontre uma matriz hermitiana , em que Encontre os autovalores e autovetores e, em seguida, dimensione cada autovetor pela raiz quadrada do seu autovalor correspondente.H

HEuj=1 12[d(xEu,xj)+d(xj,xEu)]+Eu1 12[d(xEu,xj)-d(xj,xEu)]

Isso transforma os dados em um espaço de números complexos. Depois que os dados são incorporados, a distância entre os objetos x e y é apenas x * y, onde * é a transposição do conjugado. Nesse ponto, você pode executar k-means nos vetores complexos.

O agrupamento assimétrico espectral também foi realizado, veja a tese de Stefan Emilov Atev, "Usando a assimetria no agrupamento espectral de trajetórias", Universidade de Minnesota, 2011, que fornece código MATLAB para um algoritmo especial.

andy_a
fonte
1

Você pode usar uma média (como uma média aritmética ou, para distribuições de probabilidade, a raiz quadrada da divergência de Jensen-Shannon).

cyborg
fonte
1

Você deve dar uma olhada nas estatísticas circulares (se quiser trabalhar "dentro de" uma semana de pagamento)

Lionel
fonte
1

Se sua função de distância não for um kernel Mercer válido, então , onde é a matriz Gram. Nesse caso, deseja co-clustering, também chamado de bi-clustering. Os algoritmos dessa classe produzem indicadores de cluster simultaneamente para as linhas e colunas.XXTX

|dias separados|

xD

Jessica Collins
fonte