Número ideal de componentes em uma mistura gaussiana

10

Portanto, obter uma "idéia" do número ideal de clusters em k-means está bem documentado. Encontrei um artigo sobre como fazer isso em misturas gaussianas, mas não tenho certeza se estou convencido disso, não o entendo muito bem. Existe uma maneira ... mais gentil de fazer isso?

JEquihua
fonte
4
Você poderia citar o artigo, ou pelo menos descrever a metodologia que ele propõe? É difícil chegar a uma forma "suave" de fazer isso, se não sabemos a linha de base :)
jbowman
11
Geoff McLachlan e outros escreveram livros sobre distribuições de misturas. Estou certo de que isso inclui abordagens para determinar o número de componentes em uma mistura. Você provavelmente poderia olhar lá. Concordo com o jbowman que aliviar sua confusão seria melhor se você nos indicasse do que está confuso.
Michael R. Chernick
O número ideal estimado de misturas gaussianas com base em médias k incrementais para identificação de alto-falantes ... É o título, é gratuito para download. Basicamente, aumenta o número de clusters em 1 até você ver que dois clusters se tornam dependentes entre si, algo assim. Obrigado!
JEquihua
Por que não escolher o número de componentes que maximiza a estimativa de validação cruzada da probabilidade? É computacionalmente caro, mas a validação cruzada é difícil de superar na maioria dos casos para a seleção de modelos, a menos que haja um grande número de parâmetros para ajustar.
Dikran Marsupial
Você pode explicar um pouco qual é a estimativa de validação cruzada da probabilidade? Eu não estou ciente do conceito. Obrigado.
JEquihua

Respostas:

5

Apenas uma extensão do comentário de Dikran Marsupial (validação cruzada). A idéia principal é dividir seus dados em conjuntos de treinamento e validação de alguma forma, tentar um número diferente de componentes e selecionar o melhor com base nos valores de probabilidade de treinamento e validação correspondentes.

A probabilidade de GMM é apenas por definição, em que é o número de componentes (clusters) e , , são parâmetros de modelo. Alterando o valor de você pode plotar a probabilidade do GMM para conjuntos de treinamento e validação, como a seguir.p(x|π,μ,Σ)=KπkN(x|μk,Σk)KπμΣK

insira a descrição da imagem aqui

Neste exemplo, deve ser óbvio que o número ideal de componentes é de cerca de 20. Há um bom vídeo sobre isso no Coursera, e é de onde tirei a foto acima.


Outro método comumente usado é o critério de informação bayesiano (BIC) : que é a probabilidade, K o número de parâmetros número de pontos de dados. Pode ser entendido como adicionando uma penalidade pelo número de parâmetros à probabilidade do log.

BEuC=-2registro(eu)+Kregistro(n)
eun
dontloo
fonte