Plotar visualmente dados de cluster multidimensionais

17

Eu tenho um conjunto de dados com 16 variáveis ​​e, depois de agrupar por kmeans, desejo plotar os dois grupos.

Que plotagens você sugere para representar visualmente os dois grupos?

DJ_
fonte

Respostas:

23

Não há uma visualização correta. Depende de qual aspecto dos clusters você deseja ver ou enfatizar.

Deseja ver como cada variável contribui? Considere um gráfico de coordenadas paralelas.

Coordenadas paralelas para dois clusters e meios de cluster

Deseja ver como os clusters são distribuídos pelos componentes principais? Considere um biplot (em 2D ou 3D):

Biplot de cluster

Deseja procurar outliers de cluster em todas as dimensões. Considere um gráfico de dispersão da distância do centro do cluster 1 contra a distância do centro 2. (por definição de K significa que cada cluster cairá em um lado da linha diagonal.)

insira a descrição da imagem aqui

Deseja ver relações aos pares em comparação com o armazenamento em cluster. Considere uma matriz de gráfico de dispersão colorida por cluster.

insira a descrição da imagem aqui

Deseja ver uma visão resumida das distâncias do cluster? Considere uma comparação de qualquer visualização de distribuição, como histogramas, gráficos de violino ou gráficos de caixa.

insira a descrição da imagem aqui

xan
fonte
2

Monitores multivariados são complicados, especialmente com esse número de variáveis. Eu tenho duas sugestões.

Se houver determinadas variáveis ​​que são particularmente importantes para o agrupamento ou que sejam substancialmente interessantes, você pode usar uma matriz de gráficos de dispersão e exibir os relacionamentos bivariados entre suas variáveis ​​interessantes. Você pode até usar gráficos de dispersão aprimorados (por exemplo, usar formas com tamanho proporcional a uma terceira variável) para adicionar um pouco mais de dimensionalidade

Como alternativa, você pode usar um springplot que foi desenvolvido para exibir dados de alta dimensão que exibem agrupamentos. Note, eu nunca vi isso na literatura com a qual estou familiarizado, mas acho que é uma maneira muito interessante de exibir dados multivariados. A citação a seguir é onde o enredo foi originalmente proposto.

Hoffman, PE et al. (1997) Mineração de dados visuais e analíticos do DNA. Nos procedimentos da visualização IEEE. Phoenix, AZ, pp. 437-441.

E aqui é onde eu originalmente encontrei menção a isso.

Agora, aviso justo, não consegui encontrar uma implementação de plantas de primavera fora de Orange. Então, novamente, eu não procurei tanto!

Estou assumindo que seus dados são realmente valiosos e contínuos, se forem discretos ou sem intervalo, e assim por diante, acho que nenhum dos gráficos seria útil.

Teague
fonte
1
Existe uma implementação Radviz para R: cran.r-project.org/web/packages/Radviz/vignettes/…
pmav99
1

Você pode usar a função fviz_cluster do fatoextra pacakge em R. Ele mostrará o gráfico de dispersão dos seus dados e diferentes cores dos pontos serão o cluster.

De acordo com o meu entendimento, essa função executa o PCA e, em seguida, escolhe os dois melhores pc e plota-os em 2D.

Qualquer sugestão / melhoria na minha resposta é bem-vinda.

Rohit parihar
fonte