Existe uma maneira de determinar quais recursos / variáveis do conjunto de dados são os mais importantes / dominantes em uma solução de cluster k-means?
machine-learning
clustering
k-means
importance
user1624577
fonte
fonte
Respostas:
Uma maneira de quantificar a utilidade de cada recurso (= variável = dimensão), do livro Burns, Robert P. e Richard Burns. Métodos de pesquisa de negócios e estatísticas usando o SPSS. Sage, 2008. ( espelho ), a utilidade sendo definida pelo poder discriminativo das características para diferenciar grupos.
Outra maneira seria remover um recurso específico e ver como isso afeta os índices internos de qualidade . Diferentemente da primeira solução, você teria que refazer o clustering para cada recurso (ou conjunto de recursos) que deseja analisar.
PARA SUA INFORMAÇÃO:
fonte
Posso pensar em duas outras possibilidades que se concentram mais em quais variáveis são importantes para quais clusters.
Classificação multi-classe. Considere os objetos que pertencem ao cluster x membros da mesma classe (por exemplo, classe 1) e os objetos que pertencem a outros clusters membros de uma segunda classe (por exemplo, classe 2). Treine um classificador para prever a associação (por exemplo, classe 1 vs. classe 2). Os coeficientes de variável do classificador podem servir para estimar a importância de cada variável em objetos de cluster para o cluster x . Repita essa abordagem para todos os outros clusters.
Semelhança de variável intra-cluster. Para cada variável, calcule a semelhança média de cada objeto com seu centróide. Uma variável que possui alta similaridade entre um centróide e seus objetos provavelmente é mais importante para o processo de agrupamento do que uma variável que possui baixa similaridade. Obviamente, a magnitude da similaridade é relativa, mas agora as variáveis podem ser classificadas pelo grau em que ajudam a agrupar os objetos em cada cluster.
fonte
Aqui está um método muito simples. Observe que a distância euclidiana entre dois centros de cluster é uma soma da diferença quadrada entre recursos individuais. Podemos então usar a diferença quadrada como o peso de cada recurso.
fonte