Eu sei que o k-means geralmente é otimizado usando a Maximização de Expectativas . No entanto, podemos otimizar sua função de perda da mesma maneira que otimizamos qualquer outra!
Encontrei alguns trabalhos que realmente usam descida gradiente estocástica para médias k em larga escala, mas não consegui responder à minha pergunta.
Então, alguém sabe por que isso? É porque a maximização da expectativa converge mais rapidamente ? Tem alguma garantia em particular? Ou é uma razão histórica ?
Respostas:
Como o OP menciona, é possível resolver o k-médias usando a descida do gradiente, e isso pode ser útil no caso de problemas de grande escala.
Certamente, existem razões históricas para a prevalência de algoritmos no estilo EM para resolver médias k (ou seja, algoritmo de Lloyd). O algoritmo de Lloyd é tão popular que as pessoas às vezes o chamam de "o algoritmo k-means", e pode até desconhecer a existência de outras abordagens. Mas, essa popularidade não é imerecida.
Bottou e Bengio (1995) mostraram que o algoritmo de Lloyd é equivalente a otimizar a função de custo de k-médias usando o método de Newton. Em problemas gerais de otimização, métodos de segunda ordem, como o método de Newton, podem convergir mais rapidamente que métodos de primeira ordem, como descida em gradiente, porque exploram informações sobre a curvatura da função objetivo (e os métodos de primeira ordem não). Em um experimento no conhecido conjunto de dados Iris, eles mostraram que o algoritmo de Lloyd de fato converge mais rapidamente que a descida do gradiente. Seria interessante ver essa comparação em uma variedade mais ampla de conjuntos de dados.
Referências:
Bottou e Bengio (1995) . Propriedades de convergência dos algoritmos k-means.
fonte
O agrupamento K-significa não é supervisionado, e a técnica não supervisionada mais próxima que utiliza EM é o agrupamento baseado em modelo (modelos de mistura gaussiana, GMM). Um problema irritante com o armazenamento em cluster baseado no modelo GMM ocorre quando muitos dos recursos são correlacionados, o que causa quase singularidade na matriz de covariância (correlação) baseada em recursos. Nessa situação, a função de probabilidade se torna instável, com os índices de condição atingindo o infinito, fazendo com que o GMM se quebre completamente.
Portanto, abandone a ideia de EM e kNN - já que ela é baseada em matrizes de covariância (correlação) para análises não supervisionadas. Sua consulta sobre otimização se parece muito com o mapeamento Sammon e o dimensionamento multidimensional métrico e não métrico clássico (MDS). O mapeamento de Sammon é baseado em derivativo-iterativo, enquanto várias formas de MDS são comumente composições iterativas ou de uma etapa, que podem, no entanto, otimizar durante uma operação de matriz em uma etapa.
Olhando novamente para o seu pedido: a resposta é: isso já foi feito no mapeamento do Sammon.
fonte