Estimando os recursos mais importantes em uma partição de cluster k-means

19

Existe uma maneira de determinar quais recursos / variáveis ​​do conjunto de dados são os mais importantes / dominantes em uma solução de cluster k-means?

user1624577
fonte
1
Como você define "importante / dominante"? Você quer dizer o mais útil para discriminar entre clusters?
Franck Dernoncourt 26/11
3
Sim, o mais útil é o que eu quis dizer. Acho que parte do meu problema em descobrir isso é como exprimi-lo.
user1624577
Obrigado pelo esclarecimento. Um termo comum para designar esse problema no aprendizado de máquina é a seleção de recursos .
Franck Dernoncourt 26/11

Respostas:

8

Uma maneira de quantificar a utilidade de cada recurso (= variável = dimensão), do livro Burns, Robert P. e Richard Burns. Métodos de pesquisa de negócios e estatísticas usando o SPSS. Sage, 2008. ( espelho ), a utilidade sendo definida pelo poder discriminativo das características para diferenciar grupos.

Geralmente, examinamos as médias de cada cluster em cada dimensão usando a ANOVA para avaliar quão distintos são os nossos clusters. Idealmente, obteríamos meios significativamente diferentes para a maioria, senão todas as dimensões, usadas na análise. A magnitude dos valores F realizados em cada dimensão é uma indicação de quão bem a respectiva dimensão discrimina entre os clusters.

Outra maneira seria remover um recurso específico e ver como isso afeta os índices internos de qualidade . Diferentemente da primeira solução, você teria que refazer o clustering para cada recurso (ou conjunto de recursos) que deseja analisar.

PARA SUA INFORMAÇÃO:

Franck Dernoncourt
fonte
4
É muito importante acrescentar que, nesse contexto, não se deve considerar esses valores de F (ou p) como indicadores de significância estatística (isto é, relativos à população), mas simplesmente como indicadores de magnitude das diferenças.
ttnphns
3

Posso pensar em duas outras possibilidades que se concentram mais em quais variáveis ​​são importantes para quais clusters.

  1. Classificação multi-classe. Considere os objetos que pertencem ao cluster x membros da mesma classe (por exemplo, classe 1) e os objetos que pertencem a outros clusters membros de uma segunda classe (por exemplo, classe 2). Treine um classificador para prever a associação (por exemplo, classe 1 vs. classe 2). Os coeficientes de variável do classificador podem servir para estimar a importância de cada variável em objetos de cluster para o cluster x . Repita essa abordagem para todos os outros clusters.

  2. Semelhança de variável intra-cluster. Para cada variável, calcule a semelhança média de cada objeto com seu centróide. Uma variável que possui alta similaridade entre um centróide e seus objetos provavelmente é mais importante para o processo de agrupamento do que uma variável que possui baixa similaridade. Obviamente, a magnitude da similaridade é relativa, mas agora as variáveis ​​podem ser classificadas pelo grau em que ajudam a agrupar os objetos em cada cluster.

Gyan Veda
fonte
0

Aqui está um método muito simples. Observe que a distância euclidiana entre dois centros de cluster é uma soma da diferença quadrada entre recursos individuais. Podemos então usar a diferença quadrada como o peso de cada recurso.

Distância euclidiana

ZillGate
fonte