Eu sei que existe algoritmo de agrupamento k-means e mediana k. Um que usa a média como o centro do cluster e o outro usa a mediana. Minha pergunta é: quando / onde usar qual?
clustering
k-means
Jack Twain
fonte
fonte
Respostas:
O k-mean minimiza a variação dentro do cluster, que é igual a distâncias euclidianas ao quadrado.
Em geral, a média aritmética faz isso. Ele faz não distâncias otimizar, mas desvios quadrados da média.
medianas k minimiza desvios absolutos, o que é igual à distância de Manhattan.
Em geral, a mediana por eixo deve fazer isso. É um bom estimador para a média, se você deseja minimizar a soma dos desvios absolutos (ou seja, sum_i abs (x_i-y_i)), em vez dos quadrados.
Não é uma pergunta sobre precisão. É uma questão de correção. ;-)
Então aqui está sua árvore de decisão:
Algumas exceções: até onde eu sei, maximizar a similaridade do cosseno está relacionado à minimização da distância euclidiana quadrada nos dados normalizados por L2. Portanto, se seus dados forem normalizados em L2; e você normaliza seus meios a cada iteração, então pode usar k-meios novamente.
fonte
Se você deseja fazer uma análise não relacionada ao possível efeito de valores extremos, use k significa, mas se quiser ser mais preciso, use k mediana
fonte