Seleção do modelo Mclust

11

O pacote R mclustusa o BIC como critério para a seleção do modelo de cluster. Pelo meu entendimento, um modelo com o menor BIC deve ser selecionado em relação a outros modelos (se você se importa apenas com o BIC). No entanto, quando os valores do BIC são todos negativos, a Mclustfunção é padronizada no modelo com o valor mais alto do BIC. Meu entendimento geral de várias tentativas é que mclustidentifica os "melhores" modelos como aqueles que possuem o .mumax{BEuCEu}

Estou tentando entender por que os autores tomaram essa decisão. Está ilustrado no site do CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

Além disso, os autores dos mclustpacotes anotam isso em seu artigo Métodos de classificação baseados em modelo: Usando o software mclust em quimiometria na página 5.

O modelo “melhor” é considerado aquele com o maior BIC entre os modelos instalados.

Alguém pode esclarecer essa questão? Se um BIC mais baixo é sempre melhor, por que os autores não escolhem o modelo com o BIC mais baixo, mas o modelo com o menor BIC absoluto? Se possível, forneça referências.

Jon
fonte

Respostas:

10

Solução encontrada:

Portanto, para reafirmar a pergunta, por que a Mclustfunção padroniza o modelo com o maior valor de BIC como o modelo "melhor"?

Ótima pergunta! Deixe-me dar uma resposta prolongada a isso.

Os valores TL; DR : BIC são uma aproximação à probabilidade integrada (não máxima) e você deseja o modelo com a maior probabilidade integrada (fator Bayes), para escolher o modelo com a maior BIC.

Resposta longa : O objetivo de usar o cluster baseado em modelo sobre abordagens de cluster baseado em heurística, como k-means e cluster hierárquico (aglomerativo), é fornecer uma abordagem mais formal e intuitiva para comparar e selecionar um modelo de cluster apropriado para seus dados.

O Mclust utiliza técnicas de agrupamento baseadas em modelos de probabilidade, modelos mistos gaussianos. O uso de modelos de probabilidade permite o desenvolvimento de abordagens baseadas em modelo para comparar diferentes modelos e tamanhos de cluster. Consulte * Métodos de classificação baseados em modelo: usando o software mclust em quimiometria * ( https://www.jstatsoft.org/article/view/v018i06 ) para obter mais detalhes.

Como mencionado acima, os autores afirmam que o "melhor" modelo é aquele com os maiores valores de BIC. Aqui está outro exemplo do software de cluster avançado baseado em modelo, estimativa de densidade e análise discriminante: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

O Critério de Informação da Baysia ou BIC (?) É o valor da probabilidade de log maximizada com uma penalidade no número de parâmetros no modelo e permite a comparação de modelos com parametrizações diferentes e / ou números diferentes de clusters. Em geral, quanto maior o valor do BIC, mais fortes são as evidências para o modelo e o número de clusters (ver, por exemplo, Fraley e Raftery 2002a).

Seleção de modelo : agora que existe um modelo de probabilidade anexado aos clusters, é possível usar ferramentas mais sofisticadas para comparar vários modelos de cluster usando a seleção de modelo bayesiano via fatores Bayes.

Em seu artigo, Quantos Clusters? Qual método de cluster? Respostas por meio de análise de cluster baseada em modelo ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

O fator Bayes é a probabilidade posterior de um modelo contra o outro, assumindo que nenhum é favorecido a priori. Banfield e Raftery [2] usaram uma aproximação derivada heuristicamente de duas vezes o fator log Bayes, chamado de 'AWE', para determinar o número de clusters em cluster hierárquico com base na probabilidade de classificação. Quando o EM é usado para encontrar a probabilidade máxima de mistura, é aplicável uma aproximação mais confiável para o dobro do fator log Bayes chamado BIC (Schwarz [32]):

2registro(p(x|M))+constumant2euM(x,θ^)-mmeuog(n)BEuC

p(x|M)euM(x,θ^)uma prEuorEup(x|M)M

Portanto, em resumo, o BIC não deve ser minimizado. A pessoa que usa essa abordagem de cluster baseado em modelo deve procurar o modelo que maximiza o BIC à medida que se aproxima do fator Bayes com a máxima probabilidade integrada.

Essa última declaração também tem uma referência:

Banfield, JD e Raftery, AE (1993) Cluster gaussiano e não gaussiano baseado em modelo. Biometrics, 49, 803-821.

EDIT : com base em uma troca de e-mail,

Como observação, sempre verifique como o BIC está definido. Às vezes, por exemplo, na maioria dos contextos de regressão (onde tradicionalmente uma estatística é minimizada para a estimativa de parâmetros, por exemplo, soma residual dos quadrados, desvio, etc), o BIC é calculado como -2 * loglik + npar * log (n), ou seja, o inverso de o que é usado no mclust. Claramente, nesse caso, o BIC deve ser minimizado.

BEuC=-2×eun(eu(θ|x))+k×eun(n)

Jon
fonte
1
Não tenho certeza de qual versão do Mclust a correspondência de email desta resposta estava relacionada. A versão 4 do Mclust usa o componente negativo do BIC e, portanto, deve ser maximizada. Espero que possa ser útil para as pessoas que tentam descobrir se uma maximização ou minimização deve ser feita.
Rasika
Obrigado por apontar isso, vou atualizar esta pergunta para que faça sentido. Eu poderia olhar para a documentação, assim como para ver se há por que eles decidiram fazer essa alteração depois de tantos anos
Jon