Sendo um novato em R, não sei muito bem como escolher o melhor número de clusters para fazer uma análise k-means. Após plotar um subconjunto dos dados abaixo, quantos clusters serão apropriados? Como posso executar a análise de dendro de cluster?
n = 1000
kk = 10
x1 = runif(kk)
y1 = runif(kk)
z1 = runif(kk)
x4 = sample(x1,length(x1))
y4 = sample(y1,length(y1))
randObs <- function()
{
ix = sample( 1:length(x4), 1 )
iy = sample( 1:length(y4), 1 )
rx = rnorm( 1, x4[ix], runif(1)/8 )
ry = rnorm( 1, y4[ix], runif(1)/8 )
return( c(rx,ry) )
}
x = c()
y = c()
for ( k in 1:n )
{
rPair = randObs()
x = c( x, rPair[1] )
y = c( y, rPair[2] )
}
z <- rnorm(n)
d <- data.frame( x, y, z )
r
cluster-analysis
k-means
user2153893
fonte
fonte
fpc
pacote. É verdade, você precisa definir dois parâmetros ... mas eu descobri quefpc::dbscan
ele faz um bom trabalho ao determinar automaticamente um bom número de clusters. Além disso, ele pode gerar um único cluster, se é o que os dados dizem - alguns dos métodos das excelentes respostas de @ Ben não ajudarão a determinar se k = 1 é realmente o melhor.Respostas:
Se sua pergunta for
how can I determine how many clusters are appropriate for a kmeans analysis of my data?
, então aqui estão algumas opções. O artigo da Wikipedia sobre como determinar o número de clusters faz uma boa revisão de alguns desses métodos.Primeiro, alguns dados reproduzíveis (os dados no Q não são claros para mim):
Um . Procure uma dobra ou cotovelo na plotagem de seixos da soma do erro ao quadrado (SSE). Consulte http://www.statmethods.net/advstats/cluster.html & http://www.mattpeeples.net/kmeans.html para obter mais informações. A localização do cotovelo no gráfico resultante sugere um número adequado de grupos para os kmeans:
Podemos concluir que 4 clusters seriam indicados por este método:
Dois . Você pode fazer o particionamento em torno do medoids para estimar o número de clusters usando a
pamk
função no pacote fpc.Três . Critério de Calinsky: Outra abordagem para diagnosticar quantos clusters se adequam aos dados. Neste caso, tentamos 1 a 10 grupos.
Quatro . Determinar o modelo ideal e o número de clusters, de acordo com o Critério de Informação Bayesiano para maximização de expectativas, inicializado por cluster hierárquico para modelos de mistura gaussiana parametrizados
Cinco . Cluster de propagação de afinidade (AP), consulte http://dx.doi.org/10.1126/science.1136800
Seis . Estatística de lacunas na estimativa do número de clusters. Veja também algum código para obter uma boa saída gráfica . Tentando 2-10 clusters aqui:
Aqui está o resultado da implementação de Edwin Chen da estatística de gap:
Sete . Você também pode achar útil explorar seus dados com clustergrams para visualizar a atribuição de cluster, consulte http://www.r-statistics.com/2010/06/clustergram-visualization-and-diagnostics-for-cluster-analysis-r- código / para mais detalhes.
Oito . O pacote NbClust fornece 30 índices para determinar o número de clusters em um conjunto de dados.
Se sua pergunta for
how can I produce a dendrogram to visualize the results of my cluster analysis
, você deve começar com estes: http://www.statmethods.net/advstats/cluster.html http://www.r-tutor.com/gpu-computing/clustering/hierarchical-cluster-analysis http://gastonsanchez.wordpress.com/2012/10/03/7-ways-to-plot-dendrograms-in-r/ E veja aqui os métodos mais exóticos: http://cran.r-project.org/ web / views / Cluster.htmlAqui estão alguns exemplos:
Também para dados de alta dimensão, está a
pvclust
biblioteca que calcula valores de p para cluster hierárquico por meio de reamostragem de inicialização em escala múltipla. Aqui está o exemplo da documentação (não funcionará em dados de baixa dimensão como no meu exemplo):Isso ajuda?
fonte
R
pacotes (está no meu GitHub - você pode dar uma olhada); 3) minha solução parece funcionar bem o suficiente, além disso, já faz um tempo e eu já finalizei meu software de dissertação, relatório de dissertação (tese) e atualmente estou me preparando para a defesa :-). Independentemente disso, eu aprecio muito o seu comentário e links. Muito bem sucedida!É difícil adicionar uma resposta muito elaborada. Embora eu deva mencionar
identify
aqui, principalmente porque o @Ben mostra muitos exemplos de dendrogramas.identify
permite escolher interativamente clusters de um dendograma e armazenar suas opções em uma lista. Pressione Esc para sair do modo interativo e retornar ao console R. Observe que a lista contém os índices, não os nomes de usuário (ao contrário decutree
).fonte
Para determinar o k-cluster ideal nos métodos de clustering. Eu geralmente uso o
Elbow
método acompanhar pelo processamento paralelo para evitar o consumo de tempo. Este código pode ser amostrado da seguinte maneira:Método do cotovelo
Correndo o cotovelo paralelo
Isso funciona bem.
fonte
Esplêndida resposta de Ben. No entanto, estou surpreso que o método de propagação de afinidade (AP) tenha sido sugerido aqui apenas para encontrar o número de cluster para o método k-means, onde, em geral, o AP faz um trabalho melhor agrupando os dados. Consulte o artigo científico que apoia este método na Science aqui:
Frey, Brendan J. e Delbert Dueck. "Agrupando passando mensagens entre pontos de dados." Science 315,5814 (2007): 972-976.
Portanto, se você não é direcionado para o k-means, sugiro usar o AP diretamente, o que agrupará os dados sem exigir o conhecimento do número de clusters:
Se distâncias euclidianas negativas não forem apropriadas, você poderá usar outras medidas de similaridade fornecidas no mesmo pacote. Por exemplo, para similaridades baseadas nas correlações de Spearman, é disso que você precisa:
Observe que essas funções para semelhanças no pacote AP são fornecidas apenas para simplificar. De fato, a função apcluster () em R aceitará qualquer matriz de correlações. O mesmo antes com corSimMat () pode ser feito com isso:
ou
dependendo do que você deseja agrupar em sua matriz (linhas ou colunas).
fonte
Esses métodos são ótimos, mas ao tentar encontrar k para conjuntos de dados muito maiores, eles podem ser muito lentos em R.
Uma boa solução que encontrei é o pacote "RWeka", que possui uma implementação eficiente do algoritmo X-Means - uma versão estendida do K-Means que se adapta melhor e determina o número ideal de clusters para você.
Primeiro, verifique se o Weka está instalado no seu sistema e se o XMeans está instalado através da ferramenta de gerenciamento de pacotes do Weka.
fonte
Uma solução simples é a biblioteca
factoextra
. Você pode alterar o método de armazenamento em cluster e o método para calcular o melhor número de grupos. Por exemplo, se você deseja saber o melhor número de clusters para um k- significa:Data: mtcars
Finalmente, obtemos um gráfico como:
fonte
As respostas são ótimas. Se você quiser dar uma chance a outro método de armazenamento em cluster, poderá usar o armazenamento em cluster hierárquico e ver como os dados estão sendo divididos.
Dependendo de quantas classes você precisar, você pode cortar seu dendrograma como;
Se você digitar
?cutree
, verá as definições. Se o seu conjunto de dados tiver três classes, será simplescutree(hc.complete, k = 3)
. O equivalente paracutree(hc.complete,k = 2)
écutree(hc.complete,h = 4.9)
.fonte