Clusters que podem ser causados ​​por meios K

8

Eu recebi a seguinte pergunta como uma pergunta de teste para o meu exame e simplesmente não consigo entender a resposta.

Um gráfico de dispersão dos dados projetados nos dois primeiros componentes principais é mostrado abaixo. Desejamos examinar se existe alguma estrutura de grupo no conjunto de dados. Para fazer isso, executamos o algoritmo k-means com k = 2 usando a medida da distância euclidiana. O resultado do algoritmo k-means pode variar entre as execuções, dependendo das condições iniciais aleatórias. Executamos o algoritmo várias vezes e obtivemos alguns resultados de cluster diferentes.

Somente três dos quatro agrupamentos mostrados podem ser obtidos executando o algoritmo k-means nos dados. Qual deles não pode ser obtido por meio k? (não há nada de especial nos dados)

4 agrupamentos de dados possíveis

A resposta correta é D. Algum de vocês pode explicar o porquê?

pir
fonte
2
Seria bom saber como o seu professor ou professor explica isso
Andy Clifton
3
Esta é a resposta dada pelo meu professor: O algoritmo k-means continua até a convergência calculando a média de cada cluster e atribuindo objetos de dados ao cluster mais próximo. Se o clustering em D fosse uma solução, as duas médias do cluster estariam em torno de -1,8 e 0 no eixo PC2, o que forçaria os objetos de dados entre -0,9 e -1,8 no eixo PC2 a serem agrupados no primeiro cluster no próxima iteração do algoritmo k-means. Assim, D não pode ser uma solução.
pir

Respostas:

7

Para colocar um pouco mais de detalhes na resposta de Peter Flom, o k-significa cluster procura k grupos nos dados. O método assume que cada cluster possui um centróide em um determinado (x,y). O algoritmo k-means minimiza a distância de cada ponto ao centróide (pode ser a distância euclidiana ou manhattan, dependendo dos seus dados).

Para identificar os clusters, é feita uma estimativa inicial de quais pontos de dados pertencem a qual cluster, e o centróide é calculado para cada cluster. A métrica de distância é calculada e, em seguida, alguns pontos são trocados entre os clusters para verificar se o ajuste melhora. Existem muitas variações nos detalhes, mas fundamentalmente o k-means é uma solução de força bruta que depende das condições iniciais, pois existem mínimos locais para a solução de agrupamento.

Portanto, no seu caso, parece que o caso A teve condições iniciais amplamente separadas xe, portanto, os clusters são resolvidos porque as distâncias dos centróides aos dados são pequenas e é uma solução estável. Por outro lado, você não pode obter D porque esse único ponto vermelho está mais próximo do centróide dos pontos azuis do que muitos outros, portanto, o ponto vermelho deveria ter se tornado parte do conjunto azul.

Portanto, a única maneira de obter D é se você interromper o processo de cluster antes de terminar (ou o código que criou os clusters está quebrado).

Andy Clifton
fonte
2
Tanto a resposta de Peter Flom como Andy Clifton deixaram mais claro para mim por que não se pode obter D de agrupamento no post original. No entanto, acho que essa resposta é a mais completa, o que pode mais facilmente fazer com que alguém a entenda. Obrigado pela ajuda!
pir
5

Como o ponto circulado em D não está longe de outros pontos na dimensão PC1, na dimensão PC2 ou na distância euclidiana que os combina.

Em A, o ponto único está longe dos outros no PC1

Em B e C existem dois grandes grupos que são facilmente separáveis. De fato, B e C são o mesmo agrupamento (a menos que esteja faltando um ponto), eles variam apenas em termos de rótulo

Peter Flom
fonte
4
Sim, e eu diria que é improvável que qualquer análise de cluster - não apenas o K-significa - forneça a solução D (a menos que talvez quando sintonizado incorretamente).
Ttnphns 25/05
3

Como D contém apenas um único ponto, seu centro está exatamente nesse ponto.

Para o restante dos dados, o centro deve estar próximo de 0,0 nesta projeção.

Pelo menos um dos pontos azuis está substancialmente mais próximo do centro vermelho do que o azul nos dois primeiros componentes principais. O resultado não parece ser produzido pelas células Voronoi.

Possui QUIT - Anony-Mousse
fonte
1

Esta não é uma resposta direta à sua pergunta, mas não entendo como a configuração sugerida pelo seu professor, ou seja, primeiro aplicando o PCA e depois procurando grupos, faz sentido:

Se o conjunto de dados tiver uma estrutura em cluster, não é garantido que a redução dimensional obtida através do PCA respeite essa estrutura. Nas suas figuras, PC1 e PC2 fornecerão apenas as variáveis ​​(ou combinações lineares de variáveis) que capturam a maior variação nos dados.

Em outras palavras: se você supor, desde o início, que o conjunto de dados contém clusters, os recursos mais importantes são claramente os que discriminam entre os clusters, os quais, em geral, não coincidem com as direções de grandes variações em todo o conjunto de dados.

Nesse cenário, o que faz mais sentido é primeiro agrupar (sem qualquer redução de dimensionalidade) e depois executar LDA ou XCA , ou algo semelhante que preserve as informações discriminatórias de classe / agrupamento.

Zhubarb
fonte