Cluster de dados com mistura de variáveis ​​contínuas e categóricas

8

Eu tenho dados que representam algum aspecto do comportamento humano. Quero agrupá-lo (sem supervisão) em perfis comportamentais de algum tipo. agora, algumas das minhas variáveis ​​são categóricas (com 2 ou mais categorias) e outras são contínuas (a maioria são porcentagens). Algumas variáveis ​​são ainda mais complexas, pois uma categoria tem mais continuidade e a outra não possui esses dados adicionais.

Minha pergunta é sobre como categorizar esses dados. Quais são as abordagens (comuns?) Para lidar com isso?

Não preciso de código nem nada, mas algumas referências ou orientações que me ajudarão a entender melhor como lidar com esse desafio.

Se você conhece Rfunções que facilitam essa análise, isso seria ótimo, mas não é necessário.

obrigado.

amit
fonte
2
A medida de similaridade de Gower pode levar simultaneamente dados nominais contínuos, ordinais, binários e nominais. Você pode usar métodos de cluster como hierárquico ou medóide, para analisar a matriz de proximidade. Poucos outros métodos de agrupamento (por exemplo, cluster TwoStep) podem aceitar variáveis ​​contínuas e nominais de uma só vez.
ttnphns
Quanto às porcentagens ou contagens, algumas vezes são calculadas medidas especiais do qui-quadrado e, às vezes, a distância euclidiana usual, como para dados contínuos.
Ttnphns 25/05
4
Em suma, agrupar dados de tipo misto é uma coisa complicada e pode ser apenas para um analista de dados experiente, talvez. Por outro lado, o agrupamento desses dados geralmente não é uma boa idéia, porque existem questões de padronização, interpretação e análise de contribuição de recursos.
Ttnphns 25/05

Respostas:

1
  1. Gaste muito tempo entendendo a semelhança nos seus dados.
  2. Formalize sua noção de similaridade em uma medida de similaridade especializada, projetada para seu conjunto de dados específico (você provavelmente não poderá usar uma similaridade pronta para uso).
  3. Use um algoritmo de clustering que possa usar similaridades arbitrárias, como clustering hierárquico, DBSCAN, propagação de afinidade ou clustering espectral.
Possui QUIT - Anony-Mousse
fonte