Atribuir pesos a variáveis ​​na análise de cluster

11

Quero atribuir pesos diferentes às variáveis ​​em minha análise de cluster, mas meu programa (Stata) parece não ter uma opção para isso, então preciso fazê-lo manualmente.

Imagine 4 variáveis ​​A, B, C, D. Os pesos para essas variáveis ​​devem ser

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Eu estou querendo saber se uma das duas abordagens a seguir realmente faria o truque:

  1. Primeiro eu padronizo todas as variáveis ​​(por exemplo, por seu intervalo). Então multiplico cada variável padronizada pelo seu peso. Em seguida, faça a análise de cluster.
  2. Multiplico todas as variáveis ​​pelo seu peso e depois as padronizo. Em seguida, faça a análise de cluster.

Ou as duas idéias são completamente sem sentido?

[EDIT] Os algoritmos de agrupamento (eu tento 3 diferentes) que desejo usar são k-means, enlace médio ponderado e enlace médio. Eu pretendo usar a ligação de média ponderada para determinar um bom número de clusters que eu conecto em k-means posteriormente.

SPi
fonte
11
Ambas as formas geralmente não estão corretas. Multiplicar valores de variáveis ​​não é equivalente a ponderar a importância das variáveis ​​para o cluster. Se o programa não tiver a opção de ponderação, você poderá fazê-lo algumas vezes com os dados que desejar - mas isso depende da natureza exata do seu cluster. Portanto, descreva (na sua pergunta) detalhes do seu cluster: qual algoritmo e método você usará.
ttnphns
2
Observe que a maneira mais fácil e universal de ponderar variáveis ​​(e os pesos são inteiros ou podem ser feitos números inteiros) seria simplesmente propagar as variáveis ​​vezes esses pesos. No seu exemplo, você pode usar 50 As, 25 Bs, 10 Cs, 15 Ds em seu cluster.
ttnphns
8
Ou, a alternativa: se você usar clustering com base na medida euclidiana ou usar k-means, multiplique cada variável pela raiz quadrada de seu peso. Essa multipicação deve ser feita, é claro, após qualquer pré-processamento (como padronização) que você queira fazer antes do armazenamento em cluster.
ttnphns

Respostas:

7

Uma maneira de atribuir um peso a uma variável é alterando sua escala. O truque funciona para os algoritmos de cluster que você mencionou, viz. meios k, ligação média ponderada e ligação média.

Kaufman, Leonard e Peter J. Rousseeuw. " Localizando grupos nos dados: uma introdução à análise de cluster ." (2005) - página 11:

A escolha das unidades de medida gera pesos relativos das variáveis. Expressar uma variável em unidades menores levará a um intervalo maior para essa variável, o que terá um grande efeito na estrutura resultante. Por outro lado, ao padronizar, tenta-se dar a todas as variáveis ​​um peso igual, na esperança de alcançar objetividade. Como tal, pode ser usado por um profissional que não possui conhecimento prévio. No entanto, pode muito bem ser que algumas variáveis ​​sejam intrinsecamente mais importantes que outras em uma aplicação específica, e então a atribuição de pesos deve ser baseada no conhecimento do assunto (ver, por exemplo, Abrahamowicz, 1985).

Por outro lado, tem havido tentativas de conceber técnicas de agrupamento independentes da escala das variáveis ​​(Friedman e Rubin, 1967). A proposta de Hardy e Rasson (1982) é buscar uma partição que minimize o volume total dos cascos convexos dos clusters. Em princípio, esse método é invariável em relação às transformações lineares dos dados, mas infelizmente não existe algoritmo para sua implementação (exceto por uma aproximação restrita a duas dimensões). Portanto, o dilema da padronização parece inevitável no momento e os programas descritos neste livro deixam a escolha para o usuário.

Abrahamowicz, M. (1985), O uso de informações não numéricas do pnon para medir dissimilaridades, artigo apresentado no Quarto Encontro Europeu da Sociedade Psychometric e das Sociedades de Classificação, 2-5 de julho, Cambridge (Reino Unido).

Friedman, HP e Rubin, J. (1967), Sobre alguns critérios invariantes para agrupar dados. J. Amer. Statist. ASSOC6., 2, 1159-1178.

Hardy, A. e Rasson, JP (1982), Une nouvelle approche des problemes of classification automatic, Statist. Anal. Donnies, 7, 41-56.

Franck Dernoncourt
fonte
11
Sua primeira referência é distorcida de alguma forma: Leonard Kaufman e Peter J. Rousseeuw são os autores do livro ao qual você vincula.
Nick Cox
Oh, obrigada por apontar isso ... Fui ferrado por Lavoisier, que cometeu um erro na página "Autores: SEWELL Grandville, ROUSSEEUW Peter J.", que por sua vez ferrava Gscholar que eu estava usando para obter a referência.
Franck Dernoncourt 27/11
Obrigado @FranckDernoncourt! Se a escala (e, portanto, a faixa) da variável determinasse seu peso, não se aproximaria de 1.) na minha pergunta inicial seria uma solução de alguma forma correta?
SPi
2
Sim, a abordagem 1 é a correta e corresponde ao que Kaufman, Leonard e Peter J. Rousseeuw estão dizendo nos parágrafos que citei na resposta. Abordagem 2 seria inútil como a normalização remove os pesos :)
Franck Dernoncourt