Sei que essa pergunta não está bem definida, mas alguns aglomerados tendem a ser elípticos ou ficam no espaço dimensional mais baixo, enquanto outros têm formas não lineares (em exemplos 2D ou 3D).
Existe alguma medida de não linearidade (ou "forma") de clusters?
Observe que no espaço 2D e 3D, não é um problema ver a forma de qualquer cluster, mas em espaços dimensionais mais altos é um problema dizer algo sobre a forma. Em particular, existem medidas de como o cluster é convexo?
Fui inspirado para essa pergunta por muitas outras questões de agrupamento em que as pessoas falam sobre clusters, mas ninguém é capaz de vê-las (em espaços dimensionais mais altos). Além disso, eu sei que existem algumas medidas de não linearidade para curvas 2D.
unsupervised-learning
clustering
Miroslav Sabo
fonte
fonte
Respostas:
Eu gosto de modelos de mistura gaussiana (GMM).
Uma de suas características é que, no domínio probit , eles agem como interpoladores por partes. Uma implicação disso é que eles podem agir como uma base de substituição, um aproximador universal. Isso significa que, para distribuições não gaussianas, como lognormal, weibull ou mais louca não analítica, desde que alguns critérios sejam atendidos - o GMM pode aproximar a distribuição.
Portanto, se você conhece os parâmetros da aproximação ideal do AICc ou do BIC usando o GMM, pode projetá-lo para dimensões menores. Você pode girá-lo e observar os principais eixos dos componentes do GMM que se aproxima.
A conseqüência seria uma maneira informativa e visualmente acessível de examinar as partes mais importantes dos dados de dimensões mais altas usando nossa percepção visual de visualização em 3D.
EDIT: (coisa certa, whuber)
Existem várias maneiras de observar a forma.
EDITAR:
O que significa shape? Dizem que a especificidade é a alma de toda boa comunicação. O que você quer dizer com "medida"?
Ideias sobre o que isso pode significar:
A maioria das "várias maneiras" são algumas variações.
fonte
Isso pode ser bastante simplista, mas você pode obter algumas dicas ao fazer uma análise de valor próprio em cada um de seus clusters.
O que eu tentaria é pegar todos os pontos atribuídos a um cluster e ajustá-los a um gaussiano multivariado. Em seguida, você pode calcular os valores próprios da matriz de covariância ajustada e plotá-los. Há muitas maneiras de fazer isso ; talvez o mais conhecido e amplamente utilizado seja chamado de análise de componentes principais ou PCA .
Depois de obter os autovalores (também chamados de espectro), é possível examinar seus tamanhos relativos para determinar o quão "estendido" o cluster está em determinadas dimensões. Quanto menos uniforme o espectro, mais "em forma de charuto" o cluster é, e quanto mais uniforme o espectro, mais esférico é o cluster. Você pode até definir algum tipo de métrica para indicar quão não uniformes são os valores próprios (entropia espectral?); consulte http://en.wikipedia.org/wiki/Spectral_flatness .
Como um benefício colateral, você pode examinar os principais componentes (os vetores próprios associados aos grandes valores próprios) para ver "onde" os clusters "em forma de charuto" estão apontando no seu espaço de dados.
Naturalmente, essa é uma aproximação grosseira para um cluster arbitrário, pois apenas modela os pontos no cluster como um único elipsóide. Mas, como eu disse, isso pode lhe dar algumas dicas.
fonte
Algoritmos de agrupamento de correlação, como 4C, ERiC ou LMCLUS, geralmente consideram clusters como variedades lineares. Ou seja, hiperplanos k-dimensionais em um espaço d-dimensional. Bem, para 4C e ERiC apenas linearmente localmente, eles podem ser de fato não convexos. Mas eles ainda tentam detectar grupos de uma dimensionalidade local reduzida.
Encontrar clusters de formato arbitrário em dados de alta dimensão é um problema bastante difícil. Em particular, devido à maldição da dimensionalidade, que permite que o espaço de pesquisa exploda e, ao mesmo tempo, também exija que você tenha dados de entrada muito maiores se ainda desejar resultados significativos . Muitos algoritmos não prestam atenção se o que eles acham ainda é significativo ou pode ser aleatório.
Então, de fato, acredito que existem outros problemas a serem resolvidos antes de pensar na convexidade da não convexidade de aglomerados complexos no espaço de alta dimensão.
Veja também a complexidade da computação do casco convexo em dimensões mais altas ...
Além disso, você tem um caso de uso verdadeiro para isso além da curiosidade?
fonte
Se sua dimensionalidade não for muito maior que 2 ou 3, talvez seja possível projetar o cluster de interesse no espaço 2D várias vezes e visualizar os resultados ou usar sua medida 2D de não linearidade. Pensei nisso por causa do método Random Projections http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .
Projeções aleatórias podem ser usadas para reduzir a dimensionalidade e criar um índice. A teoria é que, se dois pontos estão próximos nas dimensões D e você faz uma projeção aleatória em d dimensões com d
Para concretude, você pode projetar um globo em uma superfície plana. Não importa como você o projete, Nova York e Nova Jersey ficarão juntas, mas apenas raramente você unirá Nova York e Londres.
Não sei se isso pode ajudá-lo rigorosamente, mas pode ser uma maneira rápida de visualizar os clusters.
fonte