Como devo interpretar a estatística GAP?

10

Usei a estatística GAP para estimar k clusters em R. No entanto, não tenho certeza se a interpreto bem. insira a descrição da imagem aqui

A partir da trama acima, presumo que devo usar 3 clusters.

insira a descrição da imagem aqui

No segundo lote, devo escolher 6 grupos. É uma interpretação correta da estatística GAP?

Eu ficaria grato por qualquer explicação.

Petereter
fonte
Duas perguntas - Qual é o primeiro enredo exibido? É uma estatística GAP para os mesmos dados? Por que pareceria diferente do segundo (o que eu vejo é um GAP). Quais funções do R você usou? Segunda pergunta: você usou a regra 'erro padrão 1' para escolher 6 para o segundo gráfico?
precisa saber é o seguinte
Portanto, existem duas abordagens diferentes para agrupar. Primeiro baseado em séries temporais - vendas durante 26 semanas e agrupei dados com base em distorção dinâmica do tempo. A segunda abordagem foi agrupar os parâmetros da curva de crescimento, também com base na distorção dinâmica do tempo. Eu usei com clusGapbase no globalmax, não sabia como implementar o maxSE.
Peterpeter

Respostas:

11

Para obter um cluster ideal, você deve selecionar para maximizar a estatística de gap. Aqui está o exemplo dado por Tibshirani et al. (2001) em seu artigo, o gráfico formado por dados artificiais com 2 clusters. Como você pode ver, 2 é claramente o ideal , porque a estatística de gap é maximizada em :k k = 2kkk=2

Estatística de lacunas

No entanto, em muitos conjuntos de dados do mundo real, os clusters não são tão bem definidos e queremos equilibrar a maximização da estatística de lacunas com a parcimônia do modelo. Caso em questão: primeira imagem do OP. Se nós estamos maximizando a estatística lacuna por si só , então devemos escolher o modelo com 30 (ou até mais!) Clusters. Supondo que esse gráfico continue aumentando, é claro, os resultados são menos úteis. Portanto, Tibshirani sugere o método de erro 1 padrão :

Escolha o tamanho do cluster para ser o menor modo que . kk^kGap(k)Gap(k+1)sk+1

Que informalmente está identificando o ponto em que a taxa de aumento da estatística do gap começa a "desacelerar".

Portanto, na primeira imagem do OP, se considerarmos as barras de erro vermelhas como erro padrão, 3 é o menor que satisfaz esse critério:k

Imagem anotada 1

Para a segunda imagem do OP, no entanto, você verá que a estatística de intervalo diminui imediatamente para . Portanto, o primeiro que satisfaz o critério de erro 1 padrão é . Essa é a maneira da plotagem dizer que os dados não devem ser agrupados.k 1k>1k1

Como se vê, existem outras maneiras de escolher o ideal . O método padrão da função R , por exemplo, sempre procura o máximo local do gráfico e seleciona o menor dentro de um erro padrão do máximo local. Usando esse método, selecionaríamos e para os gráficos 1 e 2 do OP, respectivamente. Como eu disse, no entanto, isso parece sofrer de um problema de complexidade.k k = 30 k = 19kclusGapkfirstSEmaxk=30k=19

Fonte: Robert Tibshirani, Guenther Walther e Trevor Hastie (2001). Estimando o número de clusters em um conjunto de dados por meio da estatística de gap.

jayelm
fonte
11
Ao estimar o valor de partir da estatística de gap, como posso calcular / estimar a probabilidade de que é o número real de clusters? Ou é minha pergunta sem sentido? kkk
quant_dev
Obrigado por apontar o trade-off entre a maximização da estatística lacuna e get parcimônia do modelo
cloudscomputes