Por que o k-means não é otimizado usando a descida de gradiente?

14

Eu sei que o k-means geralmente é otimizado usando a Maximização de Expectativas . No entanto, podemos otimizar sua função de perda da mesma maneira que otimizamos qualquer outra!

Encontrei alguns trabalhos que realmente usam descida gradiente estocástica para médias k em larga escala, mas não consegui responder à minha pergunta.

Então, alguém sabe por que isso? É porque a maximização da expectativa converge mais rapidamente ? Tem alguma garantia em particular? Ou é uma razão histórica ?

elsonidoq
fonte
A etapa de maximização já sobe no gradiente de probabilidade (condicional aos valores escolhidos pela etapa de expectativa), certo?
David J. Harris
@ DavidJ.Harris Eu não acho que o OP esteja contestando que o EM se comporte da mesma maneira, mas perguntando por que um método parece ser amplamente usado e outro não tão usado. Seu comentário parece não abordar diretamente por que o EM pode ser preferido.
Glen_b -Reinstala Monica 5/09
1
Oi @ DavidJ.Harris, é como Glen_b, eu entendo que ambos os algoritmos otimizam a probabilidade (EM) ou a probabilidade de log (gradiente descendente). Depois de me aprofundar no google e nos amigos, cheguei a este link em papel se esta questão foi abordada. Se não deixei de entender, o EM obtém uma solução melhor do que a descida gradiente.
Elsonidoq 6/09/13
Qual é a função objetivo do k-means otimizar? É diferenciável?
Vladislavs Dovgalecs
3
É facilmente diferenciável nos parâmetros (médias de cluster), mas certamente não nas atribuições de cluster (que são variáveis ​​de indicadores multinomiais)?
Ruben van Bergen,

Respostas:

7

Como o OP menciona, é possível resolver o k-médias usando a descida do gradiente, e isso pode ser útil no caso de problemas de grande escala.

Certamente, existem razões históricas para a prevalência de algoritmos no estilo EM para resolver médias k (ou seja, algoritmo de Lloyd). O algoritmo de Lloyd é tão popular que as pessoas às vezes o chamam de "o algoritmo k-means", e pode até desconhecer a existência de outras abordagens. Mas, essa popularidade não é imerecida.

Bottou e Bengio (1995) mostraram que o algoritmo de Lloyd é equivalente a otimizar a função de custo de k-médias usando o método de Newton. Em problemas gerais de otimização, métodos de segunda ordem, como o método de Newton, podem convergir mais rapidamente que métodos de primeira ordem, como descida em gradiente, porque exploram informações sobre a curvatura da função objetivo (e os métodos de primeira ordem não). Em um experimento no conhecido conjunto de dados Iris, eles mostraram que o algoritmo de Lloyd de fato converge mais rapidamente que a descida do gradiente. Seria interessante ver essa comparação em uma variedade mais ampla de conjuntos de dados.

Referências:

Bottou e Bengio (1995) . Propriedades de convergência dos algoritmos k-means.

user20160
fonte
2

O agrupamento K-significa não é supervisionado, e a técnica não supervisionada mais próxima que utiliza EM é o agrupamento baseado em modelo (modelos de mistura gaussiana, GMM). Um problema irritante com o armazenamento em cluster baseado no modelo GMM ocorre quando muitos dos recursos são correlacionados, o que causa quase singularidade na matriz de covariância (correlação) baseada em recursos. Nessa situação, a função de probabilidade se torna instável, com os índices de condição atingindo o infinito, fazendo com que o GMM se quebre completamente.

Portanto, abandone a ideia de EM e kNN - já que ela é baseada em matrizes de covariância (correlação) para análises não supervisionadas. Sua consulta sobre otimização se parece muito com o mapeamento Sammon e o dimensionamento multidimensional métrico e não métrico clássico (MDS). O mapeamento de Sammon é baseado em derivativo-iterativo, enquanto várias formas de MDS são comumente composições iterativas ou de uma etapa, que podem, no entanto, otimizar durante uma operação de matriz em uma etapa.

Olhando novamente para o seu pedido: a resposta é: isso já foi feito no mapeamento do Sammon.

JoleT
fonte