Eu tenho um grande conjunto de dados de texto em cluster. Cada cluster é representado por um centróide dos textos vetorizados que pertencem a ele, o número de textos, a data de criação e outros parâmetros. Não consigo plotar os agrupamentos em um espaço n-dimensional. Quais opções eu tenho?
clustering
text-mining
plotting
matplotlib
Federico Caccia
fonte
fonte
Respostas:
T-SNE é outro algoritmo de redução de dimensionalidade não mencionado no artigo na outra resposta. Usado para dados com MUITO alta dimensão, se você treinou algumas incorporações para o seu conjunto de dados. Referência aqui . Biblioteca padrão do Python aqui .
Felicidades
fonte
Várias opções:
muito mais ...
fonte
Você pode usar um algoritmo de redução de dimensionalidade (como a análise de componentes principais) para reduzir o número de dimensões dos dados para 2 ou 3 e, em seguida, executar gráficos de dispersão usando as variáveis reduzidas, colorindo-as de acordo com o cluster ao qual pertencem. Em este blogpost uma coisa semelhante é feito.
fonte