Como medir a forma do cluster?

14

Sei que essa pergunta não está bem definida, mas alguns aglomerados tendem a ser elípticos ou ficam no espaço dimensional mais baixo, enquanto outros têm formas não lineares (em exemplos 2D ou 3D).

Existe alguma medida de não linearidade (ou "forma") de clusters?

Observe que no espaço 2D e 3D, não é um problema ver a forma de qualquer cluster, mas em espaços dimensionais mais altos é um problema dizer algo sobre a forma. Em particular, existem medidas de como o cluster é convexo?

Fui inspirado para essa pergunta por muitas outras questões de agrupamento em que as pessoas falam sobre clusters, mas ninguém é capaz de vê-las (em espaços dimensionais mais altos). Além disso, eu sei que existem algumas medidas de não linearidade para curvas 2D.

Miroslav Sabo
fonte
1
en.wikipedia.org/wiki/Topological_data_analysis pode ajudar, onde a forma não é exatamente o que você quer dizer.
ziyuang
1
Talvez você possa adaptar o conceito de compacidade para o seu propósito.
User12719

Respostas:

4

Eu gosto de modelos de mistura gaussiana (GMM).

Uma de suas características é que, no domínio probit , eles agem como interpoladores por partes. Uma implicação disso é que eles podem agir como uma base de substituição, um aproximador universal. Isso significa que, para distribuições não gaussianas, como lognormal, weibull ou mais louca não analítica, desde que alguns critérios sejam atendidos - o GMM pode aproximar a distribuição.

Portanto, se você conhece os parâmetros da aproximação ideal do AICc ou do BIC usando o GMM, pode projetá-lo para dimensões menores. Você pode girá-lo e observar os principais eixos dos componentes do GMM que se aproxima.

A conseqüência seria uma maneira informativa e visualmente acessível de examinar as partes mais importantes dos dados de dimensões mais altas usando nossa percepção visual de visualização em 3D.

EDIT: (coisa certa, whuber)

Existem várias maneiras de observar a forma.

  • Você pode olhar para as tendências nos meios. Um lognormal é aproximado por uma série de gaussianos cujo meio se aproxima progressivamente e cujos pesos diminuem ao longo da progressão. A soma aproxima a cauda mais pesada. Nas dimensões n, uma sequência desses componentes formaria um lóbulo. Você também pode rastrear distâncias entre médias (converter em alta dimensão) e cossenos de direção. Isso seria convertido em dimensões muito mais acessíveis.
  • Você pode criar um sistema 3d cujos eixos são o peso, a magnitude da média e a magnitude da variância / covariância. Se você tiver uma contagem de clusters muito alta, essa é uma maneira de visualizá-los em comparação. É uma maneira valiosa de converter 50 mil peças com 2 mil medidas cada uma em algumas nuvens em um espaço 3D. Eu posso executar o controle do processo nesse espaço, se eu escolher. Eu gosto da recursão do uso do controle baseado no modelo de mistura gaussiana nos componentes do modelo de mistura gaussiana se encaixa nos parâmetros das peças.
  • Em termos de desorganização, você pode jogar fora por peso muito pequeno, ou por peso por covariância ou algo assim.
  • R2
  • Você poderia olhar como bolhas se cruzando . A localização de probabilidade igual (divergência zero de Kullback-Leibler) existe entre cada par de clusters GMM. Se você rastrear essa posição, poderá filtrar por probabilidade de associação nesse local. Isso fornecerá pontos de limites de classificação. Isso irá ajudá-lo a isolar "solitários". Você pode contar o número desses limites acima do limite por membro e obter uma lista de "conectividade" por componente. Você também pode observar ângulos e distâncias entre os locais.
  • Você pode reamostrar o espaço usando números aleatórios, conforme os PDFs Gaussianos, e depois executar a análise dos componentes principais, além de observar as formas e os valores próprios associados a eles.

EDITAR:

O que significa shape? Dizem que a especificidade é a alma de toda boa comunicação. O que você quer dizer com "medida"?

Ideias sobre o que isso pode significar:

  • Sentido da norma do globo ocular / sensação de forma geral. (acessibilidade visual extremamente qualitativa)
  • medida da forma de GD&T (coplanaridade, concentricidade etc.) (extremamente quantitativa)
  • algo numérico (valores próprios, covariâncias, etc ...)
  • uma coordenada de dimensão reduzida útil (como parâmetros do GMM se tornando dimensões)
  • um sistema de ruído reduzido (suavizado de alguma forma e depois apresentado)

A maioria das "várias maneiras" são algumas variações.

EngrStudent - Restabelecer Monica
fonte
3

Isso pode ser bastante simplista, mas você pode obter algumas dicas ao fazer uma análise de valor próprio em cada um de seus clusters.

O que eu tentaria é pegar todos os pontos atribuídos a um cluster e ajustá-los a um gaussiano multivariado. Em seguida, você pode calcular os valores próprios da matriz de covariância ajustada e plotá-los. Há muitas maneiras de fazer isso ; talvez o mais conhecido e amplamente utilizado seja chamado de análise de componentes principais ou PCA .

Depois de obter os autovalores (também chamados de espectro), é possível examinar seus tamanhos relativos para determinar o quão "estendido" o cluster está em determinadas dimensões. Quanto menos uniforme o espectro, mais "em forma de charuto" o cluster é, e quanto mais uniforme o espectro, mais esférico é o cluster. Você pode até definir algum tipo de métrica para indicar quão não uniformes são os valores próprios (entropia espectral?); consulte http://en.wikipedia.org/wiki/Spectral_flatness .

Como um benefício colateral, você pode examinar os principais componentes (os vetores próprios associados aos grandes valores próprios) para ver "onde" os clusters "em forma de charuto" estão apontando no seu espaço de dados.

Naturalmente, essa é uma aproximação grosseira para um cluster arbitrário, pois apenas modela os pontos no cluster como um único elipsóide. Mas, como eu disse, isso pode lhe dar algumas dicas.

lmjohns3
fonte
+1 simplista, talvez; mas isso parece eficaz e prático. Não parece haver nenhuma vantagem no ajuste gaussiano multivariado: basta usar o SVD dos dados centralizados dentro do cluster (que é essencialmente PCA no cluster).
whuber
@ whuber sim, penso naqueles como fazendo a mesma coisa! O ajuste é mais o que a teoria diz que está acontecendo nos bastidores, enquanto o PCA é uma implementação concreta desse processo. Vou editar minha resposta para deixar isso mais claro.
precisa saber é o seguinte
2

Algoritmos de agrupamento de correlação, como 4C, ERiC ou LMCLUS, geralmente consideram clusters como variedades lineares. Ou seja, hiperplanos k-dimensionais em um espaço d-dimensional. Bem, para 4C e ERiC apenas linearmente localmente, eles podem ser de fato não convexos. Mas eles ainda tentam detectar grupos de uma dimensionalidade local reduzida.

Encontrar clusters de formato arbitrário em dados de alta dimensão é um problema bastante difícil. Em particular, devido à maldição da dimensionalidade, que permite que o espaço de pesquisa exploda e, ao mesmo tempo, também exija que você tenha dados de entrada muito maiores se ainda desejar resultados significativos . Muitos algoritmos não prestam atenção se o que eles acham ainda é significativo ou pode ser aleatório.

Então, de fato, acredito que existem outros problemas a serem resolvidos antes de pensar na convexidade da não convexidade de aglomerados complexos no espaço de alta dimensão.

Veja também a complexidade da computação do casco convexo em dimensões mais altas ...

Além disso, você tem um caso de uso verdadeiro para isso além da curiosidade?

Tem QUIT - Anony-Mousse
fonte
2

Se sua dimensionalidade não for muito maior que 2 ou 3, talvez seja possível projetar o cluster de interesse no espaço 2D várias vezes e visualizar os resultados ou usar sua medida 2D de não linearidade. Pensei nisso por causa do método Random Projections http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .

Projeções aleatórias podem ser usadas para reduzir a dimensionalidade e criar um índice. A teoria é que, se dois pontos estão próximos nas dimensões D e você faz uma projeção aleatória em d dimensões com d

Para concretude, você pode projetar um globo em uma superfície plana. Não importa como você o projete, Nova York e Nova Jersey ficarão juntas, mas apenas raramente você unirá Nova York e Londres.

Não sei se isso pode ajudá-lo rigorosamente, mas pode ser uma maneira rápida de visualizar os clusters.

James
fonte