Estou executando uma simulação rápida para comparar diferentes métodos de cluster e atualmente enfrenta um problema ao tentar avaliar as soluções de cluster.
Conheço várias métricas de validação (muitas encontradas em cluster.stats () em R), mas presumo que sejam melhor utilizadas se o número estimado de clusters for igual ao número real de clusters. Desejo manter a capacidade de medir o desempenho de uma solução de cluster quando não especificar o número correto de clusters na simulação original (ou seja, quão bem uma solução de três clusters modela dados que foram simulados para ter um cluster de quatro clusters solução). Apenas para sua informação, os clusters são simulados para possuir matrizes de covariância idênticas.
Eu pensei que a divergência de KL entre duas misturas de Gaussians seria útil para implementar, mas não existe uma solução de forma fechada ( Hershey e Olson (2007) ) e a implementação de uma simulação de Monte Carlo está começando a ser computacionalmente cara.
Existem outras soluções que podem ser fáceis de implementar (mesmo que apenas uma aproximação)?
Respostas:
Suponha que tenhamos duas misturas gaussianas em : Chame suas densidades e , respectivamente, e denote as densidades de seus componentes , por , .Rd
P= ∑i = 1nαEuPEu= ∑i = 1nαEuN( μEu, ΣEu)Q = ∑j = 1mβjQj= ∑j = 1mN( mj, Sj) . p ( ⋅ ) q( ⋅ ) PEu Qj pEu( x ) = N( x ; μEu, ΣEu) qj( x ) = N( x ; mj, Sj)
As seguintes distâncias estão disponíveis em formato fechado:
A discrepância média máxima (MMD) com um kernel Gaussian RBF. Essa é uma distância interessante, ainda não muito conhecida entre a comunidade de estatísticas, que requer um pouco de matemática para definir.
Deixando defina o espaço de Hilbert como o espaço Hilbert do núcleo em reprodução correspondente a : .k ( x , y) : = exp( - 12 σ2∥ x - y∥2) , H k k ( x , y)=⟨φ(x),φ(y)⟩H
Defina o kernel médio do mapa comoK(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
O MMD é entãoMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
Para nossas misturas e , observe que e da mesma forma para e .P Q K( P, Q ) = ∑i , jαEuβjK( PEu, Qj) K( P, P) K( Q , Q )
Acontece que, usando truques semelhantes aos de , éeu2 K( N( μ , Σ ) , N( μ′, Σ′) )) ( 2 πσ2)d/ 2N( μ ; μ′, Σ + Σ′+ σ2Eu) .
Como , isso claramente converge para um múltiplo da distância . Normalmente, você deseja usar um diferente , um na escala da variação de dados.σ→ 0 eu2 σ
Os formulários fechados também estão disponíveis para os núcleos polinomiais no MMD; Vejok
Para muitas propriedades agradáveis dessa distância, consulte
Divergência quadrática de Jensen-Rényi. A entropia Rényi- é definida como Seu limite como é a entropia de Shannon. A divergência Jensen-Rényi é onde denota uma mistura igual entre e . Acontece que, quando e quando e são misturas gaussianas (como aqui), você pode calcular um formulário fechado para . Isso foi feito porα Hα( p ) = 11 - αregistro( ∫p ( x )αd x ) . α → 1 J Rα( p , q) = Hα( p + q2) - Hα( p ) + Hα( q)2 p + q2 p q α = 2 P Q J R2
fonte
Se seus clusters não são na verdade misturas gaussianas, mas modelados arbitrariamente, seus resultados podem ser muito melhores quando você produz muito mais clusters, depois mescla alguns novamente.
Em muitos casos, apenas se escolhe k como arbitrariamente alto, por exemplo, 1000 para um grande conjunto de dados; especialmente quando você não está realmente interessado nos modelos, mas apenas deseja reduzir a complexidade do conjunto de dados via quantização vetorial.
fonte
Aqui está uma generalização do Mahalanobis D para GMMs usando o método Fisher Kernel e outras técnicas:
Gorjeta, Michael E. "Derivando funções de distância analítica de cluster de modelos de mistura gaussianos". (1999): 815-820. https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf
Veja também: Existe uma versão multi-Gaussiana da distância Mahalanobis?
fonte