Qual a diferença entre encontrar o centróide e encontrar a média?

26

Ao executar o cluster hierárquico, é possível usar muitas métricas para medir a distância entre os clusters. Duas dessas métricas implicam o cálculo dos centróides e meios de pontos de dados nos clusters.

Qual é a diferença entre a média e o centróide? Estes não são o mesmo ponto no cluster?

John Hoffman
fonte

Respostas:

38

Até onde eu sei, a "média" de um cluster e o centróide de um único cluster são a mesma coisa, embora o termo "centróide" possa ser um pouco mais preciso do que "médio" ao lidar com dados multivariados.

Para encontrar o centróide, calcula-se a média (aritmética) das posições dos pontos separadamente para cada dimensão. Por exemplo, se você tiver pontos em:

  • (-1, 10, 3),
  • (0, 5, 2) e
  • (1, 20, 10),

então o centróide estaria localizado em ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), o que simplifica (0, 11 2/3, 5) (Nota: o centróide não precisa ser - e raramente é --- um dos pontos de dados originais)

O centróide também é chamado de centro de massa ou baricentro, com base em sua interpretação física (é o centro de massa de um objeto definido pelos pontos). Como a média, a localização do centróide minimiza a distância ao quadrado da soma dos outros pontos.

Uma ideia relacionada é o medóide , que é o ponto de dados que é "menos diferente" de todos os outros pontos de dados. Ao contrário do centróide, o medóide deve ser um dos pontos originais. Você também pode estar interessado na mediana geométrica que é análoga à mediana, mas nos dados multivariados. Ambos são diferentes do centróide.

No entanto, como Gabe aponta em sua resposta , há uma diferença entre a "distância centróide" e a "distância média" ao comparar clusters. A distância do centróide entre o cluster e é simplesmente a distância entre e . A distância média é calculada encontrando a distância média por pares entre os pontos em cada cluster. Em outras palavras, para cada ponto no cluster , você calcula , , ...UMABcentróide(UMA)centróide(B)umaEuUMAdist(umaEu,b1 1)dist(umaEu,b2)dist(umaEu,bn) e avalie todos eles juntos.

Matt Krause
fonte
Sob quais condições o centróide e o medóide são idênticos? E também por que o centróide é um bom representante de um conjunto de pontos?
precisa saber é o seguinte
@krkr, você pode fazer isso como uma nova pergunta para obter mais respostas (e mais aprofundadas). Dito isto, a diferença se resume a duas coisas: 1) a coisa a ser minimizada (distância ao quadrado / norma L2 para o centróide, distância absoluta / norma L1 para o período médio) e 2) se a saída pode ser qualquer ponto (centróide) ou deve estar no conjunto de dados (período médio). Você pode imaginar casos em que eles serão os mesmos, mas em geral eles não serão. O centróide é "bom" pelas mesmas razões em que a média é (menor distância ao quadrado dos pontos) e também tem desvantagens semelhantes (por exemplo, não é robusta contra valores extremos).
Matt Krause
4

A resposta acima pode estar incorreta, veja este vídeo: https://www.youtube.com/watch?v=VMyXc3SiEqs Parece que a média soma todas as combinações de distâncias entre os elementos do cluster 1 e do cluster 2 - ou seja, n ^ 2 distâncias somadas e depois divididas por n ^ 2 à média.

O método Centroid primeiro calcula a média de cada cluster dentro de si. Em seguida, calcula uma distância entre esses pontos médios.

Gabe
fonte
11
Oi Gabe! Eu acho que você está falando sobre essa parte do vídeo? Até onde eu sei, o centróide e a média de um único cluster são a mesma coisa, mas, como você apontou, a distância do centróide e a distância média entre dois grupos são medidas diferentes. Eu pensei que o OP estava perguntando sobre o primeiro, mas também editei um pouco sobre o último. Obrigado por apontar isso (+1) e bem-vindo ao Cross Validated!
Matt Krause #
-1

centróide é a média dos pontos de dados em um cluster, o ponto centróide não precisa estar presente no conjunto de dados, enquanto medóide é o ponto de dados mais próximo do centróide, o medóide precisa estar presente nos dados originais

aliado
fonte