Outras respostas estão corretas, mas pode ser útil obter uma compreensão intuitiva do problema, vendo um exemplo. Abaixo, eu gero um conjunto de dados que possui dois clusters claros, mas a dimensão não agrupada é muito maior que a dimensão agrupada (observe as diferentes escalas nos eixos). O armazenamento em cluster nos dados não normalizados falha. O armazenamento em cluster nos dados normalizados funciona muito bem.
O mesmo se aplica aos dados agrupados em ambas as dimensões, mas a normalização ajudaria menos. Nesse caso, pode ser útil fazer um PCA e normalizar, mas isso só ajudaria se os clusters forem linearmente separáveis e não se sobreporem nas dimensões do PCA. (Este exemplo funciona apenas de forma tão clara devido à baixa contagem de clusters)
import numpy as np
import seaborn
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
rnorm = np.random.randn
x = rnorm(1000) * 10
y = np.concatenate([rnorm(500), rnorm(500) + 5])
fig, axes = plt.subplots(3, 1)
axes[0].scatter(x, y)
axes[0].set_title('Data (note different axes scales)')
km = KMeans(2)
clusters = km.fit_predict(np.array([x, y]).T)
axes[1].scatter(x, y, c=clusters, cmap='bwr')
axes[1].set_title('non-normalised K-means')
clusters = km.fit_predict(np.array([x / 10, y]).T)
axes[2].scatter(x, y, c=clusters, cmap='bwr')
axes[2].set_title('Normalised K-means')