K-means é um algoritmo bem conhecido para agrupamento, mas também há uma variação on-line desse algoritmo (K-means on-line). Quais são os prós e os contras dessas abordagens e quando cada um deve ser preferido?
fonte
K-means é um algoritmo bem conhecido para agrupamento, mas também há uma variação on-line desse algoritmo (K-means on-line). Quais são os prós e os contras dessas abordagens e quando cada um deve ser preferido?
Os meios-k on-line (mais conhecidos como meios-k seqüenciais ) e os meios-k tradicionais são muito semelhantes. A diferença é que o k-means online permite atualizar o modelo à medida que novos dados são recebidos.
O k-means online deve ser usado quando você espera que os dados sejam recebidos um a um (ou talvez em pedaços). Isso permite que você atualize seu modelo à medida que obtém mais informações sobre ele. A desvantagem desse método é que ele depende da ordem em que os dados são recebidos ( ref ).
A publicação original do MacQueen k-means (a primeira a usar o nome "kmeans") é um algoritmo online.
MacQueen, JB (1967). "Alguns métodos para classificação e análises de observações multivariadas". Anais do 5º Simpósio de Berkeley sobre Estatística Matemática e Probabilidade 1. University of California Press. 281-297
Após atribuir cada ponto, a média é atualizada incrementalmente usando uma fórmula simples de média ponderada (a média antiga é ponderada com n, a nova observação é ponderada com 1, se a média tiver n observações antes).
Até onde eu sei, também era para ser uma única passagem sobre os dados, embora possa ser repetidamente trivialmente repetido várias vezes para reatribuir pontos até a convergência.
O MacQueen geralmente usa menos iterações que o Lloyds para convergir se seus dados forem embaralhados (porque atualiza a média mais rapidamente!). Nos dados solicitados, pode haver problemas. Por outro lado, requer mais computação para cada objeto, portanto cada iteração leva um pouco mais de tempo (operações matemáticas adicionais, obviamente).