A normalização média e o dimensionamento de recursos são necessários para o cluster k-means?

Respostas:

63

Se suas variáveis ​​são de unidades incomparáveis ​​(por exemplo, altura em cm e peso em kg), é claro que você deve padronizar as variáveis. Mesmo se as variáveis ​​tiverem as mesmas unidades, mas mostrarem variações bastante diferentes, ainda é uma boa idéia padronizar antes do K-mean. Veja bem, o agrupamento K-significa é "isotrópico" em todas as direções do espaço e, portanto, tende a produzir clusters mais ou menos redondos (em vez de alongados). Nessa situação, deixar as variações desiguais equivale a colocar mais peso nas variáveis ​​com menor variação, de modo que os agrupamentos tendem a ser separados ao longo de variáveis ​​com maior variação.

insira a descrição da imagem aqui

1

Aqui está um raciocínio geral sobre a questão dos recursos de padronização em cluster ou outra análise multivariada.


1

ttnphns
fonte
2
A randomização, re-execução, média e execução final é um conselho muito bom. Obrigado
pedrosaurio
11
Como o k-significa seria sensível ao pedido?
SmallChess
11
@StudentT, adicionei uma nota de rodapé para isso. Obrigado.
ttnphns
11
@ttnphns como determinar quantitativamente que variáveis ​​têm "variações bastante diferentes"?
Herman Toothrot
11
@camillejr, comece verificando este Q: stats.stackexchange.com/q/418427/3277 .
ttnphns 6/11
4

Depende dos seus dados, eu acho. Se você deseja que as tendências de seus dados se agrupem, independentemente da magnitude, você deve centralizar. por exemplo. digamos que você tenha algum perfil de expressão gênica e deseje ver tendências na expressão gênica; então, sem centralização média, seus genes de baixa expressão se agruparão e se afastarão dos genes de alta expressão, independentemente das tendências. A centralização faz com que genes (expressos alto e baixo) com padrões de expressão semelhantes se agrupem.

Nightwriter
fonte
Na verdade, estou comparando diferentes recursos que têm sua própria escala. Por exemplo, estou comparando o conteúdo do GC, que varia de 0,3 a 0,5, o que pode parecer pequeno, mas a diferença é bastante importante; algumas outras características têm faixas mais amplas, outras variam em escalas muito pequenas.
pedrosaurio
Então, você está agrupando fatores diferentes? Talvez possa usar algum peso ou transformação de valores.
Nightwriter
Não, estou comparando todas as variáveis ​​contínuas
pedrosaurio