Número ideal de componentes em uma mistura gaussiana

Portanto, obter uma "idéia" do número ideal de clusters em k-means está bem documentado. Encontrei um artigo sobre como fazer isso em misturas gaussianas, mas não tenho certeza se estou convencido disso, não o entendo muito bem. Existe uma maneira ... mais gentil de fazer isso?

classification k-means mixture unsupervised-learning JEquihua
fonte

Você poderia citar o artigo, ou pelo menos descrever a metodologia que ele propõe? É difícil chegar a uma forma "suave" de fazer isso, se não sabemos a linha de base :)

jbowman

Geoff McLachlan e outros escreveram livros sobre distribuições de misturas. Estou certo de que isso inclui abordagens para determinar o número de componentes em uma mistura. Você provavelmente poderia olhar lá. Concordo com o jbowman que aliviar sua confusão seria melhor se você nos indicasse do que está confuso.

Michael R. Chernick

O número ideal estimado de misturas gaussianas com base em médias k incrementais para identificação de alto-falantes ... É o título, é gratuito para download. Basicamente, aumenta o número de clusters em 1 até você ver que dois clusters se tornam dependentes entre si, algo assim. Obrigado!

JEquihua

Por que não escolher o número de componentes que maximiza a estimativa de validação cruzada da probabilidade? É computacionalmente caro, mas a validação cruzada é difícil de superar na maioria dos casos para a seleção de modelos, a menos que haja um grande número de parâmetros para ajustar.

Dikran Marsupial

Você pode explicar um pouco qual é a estimativa de validação cruzada da probabilidade? Eu não estou ciente do conceito. Obrigado.

JEquihua

Respostas:

Apenas uma extensão do comentário de Dikran Marsupial (validação cruzada). A idéia principal é dividir seus dados em conjuntos de treinamento e validação de alguma forma, tentar um número diferente de componentes e selecionar o melhor com base nos valores de probabilidade de treinamento e validação correspondentes.

A probabilidade de GMM é apenas por definição, em que é o número de componentes (clusters) e , , são parâmetros de modelo. Alterando o valor de você pode plotar a probabilidade do GMM para conjuntos de treinamento e validação, como a seguir. $p(x|\pi,\mu,\Sigma)=\sum_K\pi_kN(x|\mu_k,\Sigma_k)$ $K$ $\pi$ $\mu$ $\Sigma$ $K$

Neste exemplo, deve ser óbvio que o número ideal de componentes é de cerca de 20. Há um bom vídeo sobre isso no Coursera, e é de onde tirei a foto acima.

Outro método comumente usado é o critério de informação bayesiano (BIC) : que é a probabilidade, K o número de parâmetros número de pontos de dados. Pode ser entendido como adicionando uma penalidade pelo número de parâmetros à probabilidade do log.

B Eu C = - 2 registro (eu) + K registro (n)

$BIC = -2\log(L)+K\log(n)$

L

$L$

n

$n$

dontloo
fonte