Como plotar clusters de uma maneira agradável?

7

Eu tenho um grande conjunto de dados de texto em cluster. Cada cluster é representado por um centróide dos textos vetorizados que pertencem a ele, o número de textos, a data de criação e outros parâmetros. Não consigo plotar os agrupamentos em um espaço n-dimensional. Quais opções eu tenho?

Federico Caccia
fonte
Pesquisar holoviews
Aditya
esse babador é ótimo @Aditya!
Federico Caccia
Uma parcela de amostra utilizando datashader a partir da mesma .. datascience.stackexchange.com/a/28659/35644 @Federico Caccia
Aditya

Respostas:

3

T-SNE é outro algoritmo de redução de dimensionalidade não mencionado no artigo na outra resposta. Usado para dados com MUITO alta dimensão, se você treinou algumas incorporações para o seu conjunto de dados. Referência aqui . Biblioteca padrão do Python aqui .

Felicidades

Pavel Savine
fonte
2

Várias opções:

muito mais ...

Kasra Manshaei
fonte
1

Você pode usar um algoritmo de redução de dimensionalidade (como a análise de componentes principais) para reduzir o número de dimensões dos dados para 2 ou 3 e, em seguida, executar gráficos de dispersão usando as variáveis ​​reduzidas, colorindo-as de acordo com o cluster ao qual pertencem. Em este blogpost uma coisa semelhante é feito.

David Masip
fonte
Como tenho milhares de dimensões, o PCA pode se tornar em muita perda de informações. E eu só quero plotar os centróides de cada cluster. Acho que a melhor maneira é plotar o tempo de criação em relação a outro recurso e fornecer ao ponto (bolha) um raio proporcional à quantidade de elementos nesse cluster.
Federico Caccia