Vamos ter uma matriz simétrica quadrada de distâncias euclidianas quadradas entre n pontos e o vetor alongado n indicando a associação de grupos ou grupos ( k clusters) dos pontos; um cluster pode consistir em \ ge1 point.nk ≥ 1
Qual é a maneira mais eficiente ou realmente eficiente (em termos de velocidade) de calcular distâncias entre os centróides do cluster aqui?
Até agora, eu sempre fazia a análise da coordenada principal nessa situação. PCoA ou MDS de Torgerson equivale a converter primeiro na matriz de produtos escalares ("centralização dupla") e depois executar o PCA. Dessa forma, criamos coordenadas para os pontos no espaço euclidiano que eles ocupam. Depois disso, é fácil calcular as distâncias entre os centróides da maneira usual - como você faria com os grouped points x variables
dados. PCoA precisa decompor-se ou SVD do n x n
semidefinido positivo simétrico , mas pode ser bem grande. Além disso, a tarefa não é uma redução de dimensionalidade e, na verdade, não precisamos desses eixos principais ortogonais. Então, sinto que essas decomposições podem ser um exagero.
Então, você tem conhecimento ou idéias sobre uma maneira potencialmente mais rápida?
fonte