Depende dos seus dados. E, na verdade, nada tem a ver com agrupamentos hierárquicos, mas com as próprias funções de distância.
O problema é quando você tem atributos mistos .
Digamos que você tenha dados sobre pessoas. Peso em gramas e tamanho do sapato. Os tamanhos dos sapatos diferem muito pouco, enquanto as diferenças na massa corporal (em gramas) são muito maiores. Você pode criar dezenas de exemplos. Você simplesmente não pode comparar 1 ge 1 diferença de tamanho de sapato. De fato, neste exemplo, você calcula algo que teria a unidade física de !g⋅ tamanho do sapato---------√
Geralmente nesses casos, a distância euclidiana simplesmente não faz sentido. Mas ainda pode funcionar, em muitas situações, se você normalizar seus dados. Mesmo que isso não faça sentido, é uma boa heurística para situações em que você não possui uma função de distância "comprovadamente correta", como a distância euclidiana no mundo físico em escala humana.
Se você não padronizar seus dados, as variáveis medidas em grandes unidades de valor dominam a dissimilaridade calculada e as variáveis medidas em pequenas unidades de valor contribuem muito pouco.
Podemos visualizar isso em R via:
dist1
contém as distâncias euclidianas para as 100 observações baseadas em todas as três variáveis, enquantodist2
contém a distância euclidiana baseadavar1
somente.Observe como as distribuições de distâncias são semelhantes, indicando pouca contribuição de
var2
evar3
, e as distâncias reais são muito semelhantes:Se padronizarmos os dados
há uma grande mudança nas distâncias baseadas apenas nas
var1
e nas três variáveis:Como o cluster hierárquico usa essas distâncias, se é desejável padronizar ou não, isso dependerá do tipo de dados / variáveis que você possui e se deseja que as grandes coisas dominem as distâncias e, portanto, domine a formação do cluster. A resposta para isso é específica do domínio e específica do conjunto de dados.
fonte
Anony-Mousse deu uma excelente resposta . Eu apenas acrescentaria que a métrica de distância que faz sentido dependeria da forma das distribuições multivariadas. Para gaussiana multivariada, a distância de Mahalanobis é a medida apropriada.
fonte