Estou usando R para fazer cluster K-significa. Estou usando 14 variáveis para executar K-means
- Qual é uma maneira bonita de traçar os resultados dos meios K?
- Existem implementações existentes?
- Ter 14 variáveis complica a plotagem dos resultados?
Encontrei algo chamado GGcluster que parece legal, mas ainda está em desenvolvimento. Também li algo sobre o mapeamento de sammon, mas não o entendi muito bem. Essa seria uma boa opção?
Respostas:
Eu pressionaria o gráfico da silhueta para isso, porque é improvável que você obtenha muitas informações acionáveis dos gráficos de pares quando o número de dimensão for 14.
Essa abordagem é altamente citada e bem conhecida (veja aqui uma explicação).
Rousseeuw, PJ (1987) Silhouettes: Uma ajuda gráfica para a interpretação e validação da análise de agrupamentos . J. Comput. Appl. Matemática. , 20 , 53-65.
fonte
Aqui está um exemplo que pode ajudá-lo:
Com base no último gráfico, você pode decidir quais das suas variáveis iniciais devem plotar. Talvez 14 variáveis sejam enormes, portanto, você pode tentar uma análise de componente principal (PCA) antes e, em seguida, usar os dois ou três primeiros componentes do PCA para executar a análise de cluster.
fonte
pairs
função.A maneira mais simples que sei fazer é a seguinte:
Dessa forma, você pode desenhar os pontos de cada cluster usando uma cor diferente e seus centróides.
fonte