Gostaria de saber se é possível executar no R um agrupamento de dados com variáveis de dados mistas. Em outras palavras, tenho um conjunto de dados contendo variáveis numéricas e categóricas e estou encontrando a melhor maneira de agrupá-las. No SPSS, eu usaria o cluster em duas etapas. Gostaria de saber se em R posso encontrar técnicas semelhantes. Foi-me dito sobre o pacote poLCA, mas não tenho certeza ...
r
clustering
mixed-type-data
Giorgio Spedicato
fonte
fonte
Respostas:
Isso pode chegar tarde, mas tente o klaR ( http://cran.r-project.org/web/packages/klaR/index.html )
Ele utiliza os não-hierárquica k-modos algoritmo, que é baseado na simples correspondente como uma função de distância, de modo que a distância entre uma δ variável m de dois pontos de dados e é dada pelax y
Existe uma falha no pacote, ou seja, se dois pontos de dados têm a mesma distância de um centro de cluster, o primeiro em seus dados é escolhido em oposição a um ponto aleatório, mas você pode modificar facilmente o bit no código.
Para acomodar o cluster de variáveis mistas, você precisará entrar no código e modificar a função de distância para identificar modos e variáveis numéricos e não numéricos.
fonte
Outra maneira atraente de lidar com variáveis de tipos mistos é usar a matriz de proximidade / similaridade da Random Forests: http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf . Isso facilita uma maneira unificada de tratar igualmente todas as variáveis (no entanto, esteja ciente da questão do viés de seleção de variáveis). Por outro lado, não existe realmente uma maneira universal de ouro de definir a distância para variáveis de tipos mistos. Tudo depende dos contextos do aplicativo.
fonte
Você pode usar várias análises de correspondência para criar dimensões contínuas a partir das variáveis categóricas e depois usá-las com as variáveis numéricas em uma segunda etapa.
fonte
Bem, você certamente pode. Tornando as variáveis categóricas artificialmente numéricas. Ou usando um cluster baseado em matriz de distância (o fpc provavelmente pode fazer isso). A pergunta que você deve primeiro tentar responder é: isso realmente faz sentido?
fonte
caracteres de vários estados (nominal ou ordinal): 1 para igualdade, 0 mais (equivalente ao coeficiente de correspondência simples)
fonte
Se os possíveis valores de variáveis categóricas não forem muitos, pense em criar variáveis binárias a partir desses valores. Você pode tratar essas variáveis binárias como variáveis numéricas e executar seu armazenamento em cluster. Foi o que fiz no meu projeto.
fonte
O agrupamento de protótipos-k pode ser mais adequado aqui. Combina modos k e meios k e é capaz de agrupar dados numéricos / categóricos mistos. Para R, use o pacote 'clustMixType'.
https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf
fonte
VarSelLCM
ofertas de pacotesNo CRAN , e descrito mais em papel .
A vantagem sobre alguns dos métodos anteriores é que ele oferece ajuda na escolha do número de clusters e manipula dados ausentes. O aplicativo brilhante e agradável fornecido também não deve ser desaprovado.
fonte