Estudei algoritmos para agrupar dados (aprendizado não supervisionado): EM e k-means. Eu continuo lendo o seguinte:
O k-means é uma variante do EM, com as suposições de que os clusters são esféricos.
Alguém pode explicar a frase acima? Eu não entendo o que significa esférico e como kmeans e EM estão relacionados, uma vez que um faz uma atribuição probabilística e o outro de uma maneira determinística.
Além disso, em que situação é melhor usar o cluster de k-means? ou usar o clustering EM?
Respostas:
K significa
EM
fonte
Não existe um "algoritmo k-means". Existe o algoritmo MacQueens para k-means, o algoritmo Lloyd / Forgy para k-means, o método Hartigan-Wong, ...
Também não existe "o" algoritmo EM. É um esquema geral de esperar repetidamente as probabilidades e depois maximizar o modelo. A variante mais popular do EM também é conhecida como "Modelagem de Mistura Gaussiana" (GMM), onde o modelo é distribuições gaussianas multivariadas.
Pode-se considerar que o algoritmo Lloyds consiste em duas etapas:
... iterar essas duas etapas, como feito por Lloyd, torna isso efetivamente uma instância do esquema geral de EM. Difere do GMM que:
fonte
Aqui está um exemplo, se eu estivesse fazendo isso no mplus, o que poderia ser útil e complementar respostas mais abrangentes:
Digamos que eu tenho 3 variáveis contínuas e quero identificar clusters com base nelas. Eu especificaria um modelo de mistura (mais especificamente neste caso, um modelo de perfil latente), assumindo independência condicional (as variáveis observadas são independentes, dada a associação ao cluster) como:
Eu executaria esse modelo várias vezes, sempre especificando um número diferente de clusters, e escolheria a solução que eu mais gosto (fazer isso por si só é um vasto tópico).
Para executar o k-means, eu especificaria o seguinte modelo:
Portanto, a participação na turma é baseada apenas na distância das médias das variáveis observadas. Como afirmado em outras respostas, as variações não têm nada a ver com isso.
O bom de fazer isso no mplus é que esses são modelos aninhados e, portanto, você pode testar diretamente se as restrições resultam em pior ajuste ou não, além de poder comparar discordâncias na classificação entre os dois métodos. A propósito, ambos os modelos podem ser estimados usando um algoritmo EM, então a diferença é realmente mais sobre o modelo.
Se você pensa no espaço 3D, o 3 significa fazer um ponto ... e as variações nos três eixos de um elipsóide que atravessa esse ponto. Se todas as três variações forem iguais, você obteria uma esfera.
fonte