Estou implementando uma mistura variada de baunilha de gaussianos multivariados, conforme o capítulo 10 do Reconhecimento de padrões e aprendizado de máquina (Bishop, 2007).
A abordagem bayesiana requer a especificação de (hiper) parâmetros para o Gaussian-inverso-Wishart antes:
- (parâmetro de concentração do Dirichlet anterior);
- (graus de liberdade de uma distribuição inversa de Wishart);
- (pseudo-observações para a distribuição Wishart inversa gaussiana);
- (média da distribuição gaussiana).
- (matriz de escala para o Wishart inverso).
Escolhas comuns são , , , , , Onde é a dimensionalidade do espaço.
Sem surpresa, o posterior pode depender fortemente da escolha dos parâmetros (em particular, acho que tem um grande impacto no número de componentes, muito mais do que ) Para e , as opções acima só fazem sentido se os dados tiverem sido normalizados.
Seguindo uma espécie de abordagem empírica de Bayes, eu estava pensando em definir e igual à média empírica e à matriz de covariância empírica dos dados (para os últimos, talvez eu pudesse considerar apenas a diagonal; além disso, preciso multiplicar a matriz de covariância da amostra por ) Isso seria sensato? Alguma sugestão sobre outros métodos razoáveis para definir os parâmetros? (sem passar por Bayes e DPGMM totalmente hierárquicos)
(Existe uma pergunta semelhante aqui , mas nenhuma resposta é relevante para minha pergunta.)
Se você estiver interessado em desempenho acima da elegância, poderá definir alguma medida empírica de qualidade do ajuste e executar uma pesquisa de hiperparâmetro para maximizá-la.
fonte