Cluster hierárquico com variáveis ​​categóricas

11

As variáveis ​​categóricas podem ser usadas no cluster hierárquico? Ouvi dizer que apenas variáveis ​​contínuas são usadas, mas já vi pessoas discutindo variáveis ​​categóricas que podem ou não ser usadas também. Alguém pode fornecer informações?

Tempestade de vento
fonte
2
Sim, é claro, os dados categóricos são frequentemente objeto de análise de cluster, especialmente hierárquica. Existem muitas medidas de proximidade para variáveis ​​binárias (incluindo conjuntos fictícios, que são a ninhada de variáveis ​​categóricas); também medidas de entropia. Aglomerados de casos serão as combinações freqüentes de atributos, e várias medidas dão seu tempero específico para o cálculo de frequência. Um problema com o agrupamento de dados categóricos é a estabilidade das soluções. E essa pergunta recente apresenta a questão da correlação de variáveis.
ttnphns
Pesquise neste site para hierarchical clustering categoricaller tópicos relacionados.
ttnphns
Possível duplicado de Clustering de dados tipo misto com R
b Kjetil Halvorsen
Não acho que seja uma duplicata exatamente. A questão vinculada é sobre R e pode até estar fora de tópico agora. Esta pergunta é sobre estatísticas e não menciona um pacote de software.
Peter Flom
@ttnphns: você deseja postar seu comentário como resposta? Melhor ter uma resposta curta do que nenhuma resposta. Qualquer pessoa que tenha uma resposta melhor pode publicá-la.
Stephan Kolassa

Respostas:

3

Sim, é claro, os dados categóricos são frequentemente objeto de análise de cluster, especialmente hierárquica. Existem muitas medidas de proximidade para variáveis ​​binárias (incluindo conjuntos fictícios, que são a ninhada de variáveis ​​categóricas); também medidas de entropia. Aglomerados de casos serão as combinações freqüentes de atributos, e várias medidas dão seu tempero específico para o cálculo da frequência. Um problema com o agrupamento de dados categóricos é a estabilidade das soluções. E essa pergunta recente apresenta a questão da correlação de variáveis.

mkt - Restabelecer Monica
fonte
Copiei este comentário por @ttnphns como uma resposta do wiki da comunidade porque o comentário é, mais ou menos, uma resposta a esta pergunta. Temos uma lacuna dramática entre respostas e perguntas. Pelo menos parte do problema é que algumas perguntas são respondidas nos comentários: se os comentários que responderam à pergunta fossem respostas, teríamos menos perguntas sem resposta.
mkt - Restabelece Monica