O cluster hierárquico pode ser representado por um dendograma. Cortar um dendrograma em um determinado nível fornece um conjunto de clusters. Cortar em outro nível fornece outro conjunto de clusters. Como você escolheria onde cortar o dendrograma? Existe algo que poderíamos considerar um ponto ideal? Se eu olhar um dendrograma ao longo do tempo, à medida que ele muda, devo cortar no mesmo ponto?
clustering
dendrogram
Eduardas
fonte
fonte
hopack
(e outros) que podem estimar o número de clusters, mas isso não responde à sua pergunta.pvclust
pacote paraR
tem funções que dão bootstrap p-valores para clusters de dendrograma, o que lhe permite identificar grupos: is.titech.ac.jp/~shimo/prog/pvclustRespostas:
Não há resposta definitiva, pois a análise de cluster é essencialmente uma abordagem exploratória; a interpretação da estrutura hierárquica resultante é dependente do contexto e, muitas vezes, várias soluções são igualmente boas do ponto de vista teórico.
Várias pistas foram dadas em uma pergunta relacionada: Quais critérios de parada para agrupamento hierárquico aglomerativo são usados na prática? Eu geralmente uso critérios visuais, por exemplo, gráficos de silhueta e algum tipo de critério numérico, como o índice de validade de Dunn, a gama de Hubert, o coeficiente G2 / G3 ou o índice de Rand corrigido. Basicamente, queremos saber quão bem a matriz de distância original é aproximada no espaço do cluster, portanto, uma medida da correlação copenética também é útil. Eu também uso k-means, com vários valores iniciais, e a estatística de gap ( espelho ) para determinar o número de clusters que minimizam o dentro da SS. A concordância com o cluster hierárquico de Ward fornece uma idéia da estabilidade da solução de cluster (você pode usar
matchClasses()
no pacote e1071 para isso).Você encontrará recursos úteis no CRAN Task View Cluster , incluindo pvclust , fpc , clv , entre outros. Também vale a pena tentar o pacote clValid ( descrito no Journal of Statistical Software ).
Agora, se seus clusters mudarem com o tempo, isso é um pouco mais complicado; por que escolher a primeira solução de cluster em vez de outra? Você espera que algumas pessoas se movam de um cluster para outro como resultado de um processo subjacente evoluindo com o tempo?
Existem algumas medidas que tentam corresponder clusters com uma sobreposição absoluta ou relativa máxima, conforme sugerido na pergunta anterior. Veja Comparando agrupamentos - uma visão geral de Wagner e Wagner.
fonte
Não há realmente uma resposta. É algo entre 1 e N.
No entanto, você pode pensar sobre isso da perspectiva do lucro.
Por exemplo, no marketing, usa-se segmentação, que é muito parecida com cluster.
Uma mensagem (um anúncio ou carta, digamos), personalizada para cada indivíduo, terá a maior taxa de resposta. Uma mensagem genérica adaptada à média terá a menor taxa de resposta. Dito isto, três mensagens personalizadas para três segmentos estarão em algum lugar no meio. Este é o lado da receita.
Uma mensagem personalizada para cada indivíduo terá o custo mais alto. Uma mensagem genérica adaptada à média terá o menor custo. Três mensagens personalizadas para três segmentos estarão em algum lugar no meio.
Digamos que pagar a um escritor para escrever uma mensagem personalizada custa 1.000, dois custam 2000 e assim por diante.
Digamos, usando uma mensagem, sua receita será de 5000. Se você segmentou seus clientes em 2 segmentos e escreveu mensagens personalizadas para cada segmento, sua taxa de resposta será maior. Digamos que as receitas agora sejam 7500. Com três segmentos, uma taxa de resposta um pouco mais alta e suas receitas são 9000. Mais um segmento e você está com 9500.
Para maximizar o lucro, continue segmentando até que a receita marginal da segmentação seja igual ao custo marginal da segmentação. Neste exemplo, você usaria três segmentos para maximizar o lucro.
fonte
Talvez um dos métodos mais simples seja uma representação gráfica na qual o eixo x é o número de grupos e o eixo y qualquer métrica de avaliação como a distância ou a semelhança. Nesse gráfico, você geralmente pode observar duas regiões diferenciadas, sendo o valor do eixo x no 'joelho' da linha o número 'ideal' de cluster.
Existem também algumas estatísticas que podem ajudar nessa tarefa: gama de Hubert, pseudo-t², pseudo-F ou critérios de agrupamento cúbico (CCC), entre outros.
fonte
Há também "Clustergram: visualização e diagnóstico para análise de cluster" (com código R)
Não é realmente uma resposta, mas outra idéia interessante para a caixa de ferramentas.
fonte
No agrupamento hierárquico, o número de partições de saída não é apenas os cortes horizontais, mas também os cortes não horizontais que decidem o agrupamento final. Portanto, isso pode ser visto como um terceiro critério, à parte a métrica da distância 1. e o critério 2. Linkage . http://en.wikipedia.org/wiki/Hierarchical_clustering
O critério que você mencionou é um terceiro tipo, que é uma espécie de restrição de otimização no conjunto de partições na hierarquia. Isso é formalmente apresentado neste artigo e são apresentados exemplos de segmentação!
http://www.esiee.fr/~kiranr/ClimbingECCV2012_Preprint.pdf
fonte
Como as outras respostas disseram, é definitivamente subjetivo e depende de que tipo de granularidade você está tentando estudar. Para uma abordagem geral, eu cortei este para me dar 2 grupos e 1 outlier. Depois, focaria nos dois grupos para ver se havia algo significativo entre eles.
fonte