Quais são as melhores etapas de pré-processamento (recomendadas) antes de executar o K-means?
clustering
normalization
k-means
pedrosaurio
fonte
fonte
Respostas:
Se suas variáveis são de unidades incomparáveis (por exemplo, altura em cm e peso em kg), é claro que você deve padronizar as variáveis. Mesmo se as variáveis tiverem as mesmas unidades, mas mostrarem variações bastante diferentes, ainda é uma boa idéia padronizar antes do K-mean. Veja bem, o agrupamento K-significa é "isotrópico" em todas as direções do espaço e, portanto, tende a produzir clusters mais ou menos redondos (em vez de alongados). Nessa situação, deixar as variações desiguais equivale a colocar mais peso nas variáveis com menor variação, de modo que os agrupamentos tendem a ser separados ao longo de variáveis com maior variação.
Aqui está um raciocínio geral sobre a questão dos recursos de padronização em cluster ou outra análise multivariada.
fonte
Depende dos seus dados, eu acho. Se você deseja que as tendências de seus dados se agrupem, independentemente da magnitude, você deve centralizar. por exemplo. digamos que você tenha algum perfil de expressão gênica e deseje ver tendências na expressão gênica; então, sem centralização média, seus genes de baixa expressão se agruparão e se afastarão dos genes de alta expressão, independentemente das tendências. A centralização faz com que genes (expressos alto e baixo) com padrões de expressão semelhantes se agrupem.
fonte