Quero atribuir pesos diferentes às variáveis em minha análise de cluster, mas meu programa (Stata) parece não ter uma opção para isso, então preciso fazê-lo manualmente.
Imagine 4 variáveis A, B, C, D. Os pesos para essas variáveis devem ser
w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%
Eu estou querendo saber se uma das duas abordagens a seguir realmente faria o truque:
- Primeiro eu padronizo todas as variáveis (por exemplo, por seu intervalo). Então multiplico cada variável padronizada pelo seu peso. Em seguida, faça a análise de cluster.
- Multiplico todas as variáveis pelo seu peso e depois as padronizo. Em seguida, faça a análise de cluster.
Ou as duas idéias são completamente sem sentido?
[EDIT] Os algoritmos de agrupamento (eu tento 3 diferentes) que desejo usar são k-means, enlace médio ponderado e enlace médio. Eu pretendo usar a ligação de média ponderada para determinar um bom número de clusters que eu conecto em k-means posteriormente.
clustering
stata
SPi
fonte
fonte
Respostas:
Uma maneira de atribuir um peso a uma variável é alterando sua escala. O truque funciona para os algoritmos de cluster que você mencionou, viz. meios k, ligação média ponderada e ligação média.
Kaufman, Leonard e Peter J. Rousseeuw. " Localizando grupos nos dados: uma introdução à análise de cluster ." (2005) - página 11:
Abrahamowicz, M. (1985), O uso de informações não numéricas do pnon para medir dissimilaridades, artigo apresentado no Quarto Encontro Europeu da Sociedade Psychometric e das Sociedades de Classificação, 2-5 de julho, Cambridge (Reino Unido).
Friedman, HP e Rubin, J. (1967), Sobre alguns critérios invariantes para agrupar dados. J. Amer. Statist. ASSOC6., 2, 1159-1178.
Hardy, A. e Rasson, JP (1982), Une nouvelle approche des problemes of classification automatic, Statist. Anal. Donnies, 7, 41-56.
fonte