Estou lendo Bishop no algoritmo EM para GMM e a relação entre GMM e k-means.
Neste livro, diz que k-means é uma versão de atribuição difícil do GMM. Gostaria de saber se isso implica que, se os dados que estou tentando agrupar não forem gaussianos, não posso usar o k-means (ou pelo menos não é adequado para uso)? Por exemplo, e se os dados forem imagens de dígitos manuscritos, consistindo em 8 * 8 pixels, cada um com o valor 0 ou 1 (e assumir que são independentes, portanto, deve ser uma mistura de Bernoulli)?
Estou um pouco confuso sobre isso e aprecio qualquer pensamento.
clustering
data-mining
k-means
gaussian-mixture
eddie.xie
fonte
fonte
Respostas:
Em situações típicas do EM GMM, leva-se em consideração a variação e a covariância. Isso não é feito em k-means.
Mas, de fato, uma das heurísticas populares para k-means (nota: k-means é um problema, não um algoritmo) - o algoritmo Lloyd - é essencialmente um algoritmo EM, usando um modelo centróide (sem variação) e tarefas difíceis.
Ao fazer cluster de estilo k-means (ou seja, minimização de variação), você
Costuma-se dizer que k-means assume grupos esféricos. Também é comumente reconhecido que os aglomerados de meios k são células de Voronoi, ou seja, não esféricas. Ambos estão corretos e ambos estão errados. Antes de tudo, os aglomerados não são células Voronoi completas, mas apenas os objetos conhecidos. Não há necessidade de considerar o espaço morto entre os clusters como parte de um ou outro cluster, pois ter um objeto ali afetaria o resultado do algoritmo. Mas não é muito melhor chamá-lo de "esférico", apenas porque a distância euclidiana é esférica. K-means não se importa com a distância euclidiana. Tudo isso é uma heurística para minimizar as variações . E isso é, na verdade, o que você deve considerar como k-significa: minimização de variância.
fonte
minimize squared euclidean distance
ouminimize the variances
? Deve haver as palavras "soma de" ou "agrupado" ou algo assim, porque temos mais de 2 clusters, não é?coincidentally minimize Euclidean distance, because the sqrt function is monotone
é, para ser preciso, não está correto.minimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance
significa frase ? Você está dizendo que "ds ao quadrado entre os objetos nos clusters são minimizados porque os desvios do WCSS são minimizados" ou apenas "os desvios do WCSS são minimizados, que - os desvios - são distâncias euclidianas por natureza"? Ou mais?O GMM usa colinas sobrepostas que se estendem até o infinito (mas praticamente contam apenas com 3 sigma). Cada ponto obtém todas as pontuações de probabilidade das colinas. Além disso, as colinas são "em forma de ovo" [ok, são elipses simétricas ] e, usando a matriz de covariância completa, podem ser inclinadas .
K-significa atribui um ponto a um único cluster, para que as pontuações dos outros centros de cluster sejam ignoradas (são implicitamente redefinidas para zero / não se importam). As colinas são bolhas de sabão esféricas. Onde duas bolhas de sabão tocam, o limite entre elas se torna um plano (hiper) plano. Assim como quando você sopra uma espuma de muitas bolhas de sabão, as bolhas no interior não são planas, mas são quadradas, então os limites entre muitas (hiper) esferas formam na verdade uma partição Voronoi do espaço. Em 2D, isso tende a parecer vagamente com empacotamento hexagonal, pense em uma colméia (embora, é claro, as células de Voronoi não sejam garantidas como hexágonos). Uma colina K-significa é redonda e não é inclinada, por isso tem menos poder de representação; mas é muito mais rápido calcular, especialmente nas dimensões mais altas.
Como o K-means usa a métrica de distância euclidiana, ele assume que as dimensões são comparáveis e têm o mesmo peso. Portanto, se a dimensão X tiver unidades de milhas por hora, variando de 0 a 80, e a dimensão Y tiver unidades de libras, variando de 0 a 400, e você estiver ajustando círculos neste espaço XY, então uma dimensão (e sua expansão) será mais poderoso que a outra dimensão e ofuscará os resultados. É por isso que é normal normalizar os dados ao usar K-means.
GMM e meios K modelam os dados ajustando as melhores aproximações ao que é dado. O GMM se encaixa em ovos inclinados, e K-means se encaixa em esferas inclinadas. Mas os dados subjacentes podem ter a forma de qualquer coisa, podem ser uma espiral ou uma pintura de Picasso, e cada algoritmo ainda é executado e faz o melhor possível. Se o modelo resultante se parece com os dados reais depende do processo físico subjacente que os gera. (Por exemplo, as medições de atraso de tempo são unilaterais; um gaussiano é um bom ajuste? Talvez.)
No entanto, GMM e meios K assumem implicitamente eixos / domínios de dados provenientes do campo de números reaisRn . Isso é importante com base no tipo de eixo / domínio de dados que você está tentando agrupar. O número inteiro ordenado é bem mapeado para reais. Símbolos ordenados, como cores em um espectro, não são tão agradáveis. Símbolos binários, ehn. Símbolos não ordenados não são mapeados para reais (a menos que você esteja usando uma nova matemática criativa desde 2000).
Assim, sua imagem binária de 8x8 será interpretada como um hipercubo de 64 dimensões no primeiro hipercalorante. Os algoritmos usam analogias geométricas para encontrar agrupamentos. A distância, com médias K, aparece como distância euclidiana no espaço 64-dimensional. É uma maneira de fazer isso.
fonte