Estou fazendo um estudo sobre o uso de drogas múltiplas. Eu tenho um conjunto de dados de 400 viciados em drogas, cada um declarando as drogas que abusam. Existem mais de 10 medicamentos e, portanto, existem grandes combinações possíveis. Recodifiquei a maioria das drogas que eles consomem em variáveis binárias (ie heroína é 1 se um viciado em drogas abusou de heroína mais 0). Gostaria de encontrar as combinações populares ou comuns de 2 ou 3 drogas. Existem métodos estatísticos que eu posso usar?
A modelagem de classe latente seria uma abordagem de aprendizado supervisionado para encontrar partições ou grupos subjacentes "ocultos" ou agrupamentos de drogas e usuários de drogas. A LC é um método muito flexível, com duas abordagens amplas: replicações baseadas em medidas repetidas para um único sujeito versus replicações baseadas na classificação cruzada de um conjunto de variáveis categóricas. Seus dados se encaixariam no segundo tipo.
A flexibilidade dos LCs é uma função de sua capacidade de absorver "misturas" de variáveis com diferentes escalas (por exemplo, categóricas ou contínuas). Como a abordagem encontra partições, segmentos ou clusters ocultos nos dados, também pode ser considerada uma técnica de redução de dimensão.
Todos os modelos de LC têm 2 estágios: no estágio 1, uma variável dependente ou alvo é identificada e um modelo de regressão é construído. No estágio 2, o residual (um único vetor "latente") do modelo do estágio 1 é analisado e partições são criadas capturando a variabilidade (ou heterogeneidade) - as "classes latentes" - nesse vetor.
O freeware está disponível para download que provavelmente funcionaria muito bem para você. Um deles é um módulo R chamado polCA, disponível aqui:
http://www.jstatsoft.org/article/view/v042i10
Se você tem cerca de US $ 1.000 para gastar em um produto comercial, o Latent Gold está disponível em www.statisticalinnovations.com. Depois de usar o Latent Gold há anos, sou um grande fã desse produto por seu poder analítico e variedade de soluções. Por exemplo, o polCA é útil apenas para modelos de LC com informações categóricas, enquanto a LG trabalha em geral ... além disso, seus desenvolvedores estão sempre adicionando novos módulos. A adição mais recente constrói modelos de LC usando cadeias ocultas de Markov. Mas lembre-se de que a LG não é uma plataforma de dados "ponta a ponta", ou seja, não é boa para manipulação ou levantamento de dados pesados.
Caso contrário, existem inúmeras outras abordagens para analisar informações categóricas que são amplamente suportadas por softwares estatísticos como R, SPSS, SAS, Python, etc. Isso inclui análise de tabelas de contingência, modelos log-lineares, modelos de mistura finita, regressão de tensores bayesianos, e assim por diante. A literatura nessa área é extensa e começou com Bishop et al., Análise Multivariada Discreta em 1975, estende-se aos modelos de RC de Leo Goodman com base em seu trabalho realizado desde os anos 80, na Análise de Dados Categorizados de Agresti , livros de Stephen Fienberg e inclui Thomas Wickens excelente livro Análise de Tabelas de Contingência Multiway para as Ciências Sociais publicado em 1989. Regressão Bayesiana de Tensores é o título de um artigo de David Dunson da Duke e é uma espécie de "estado da arte" por ser um método muito recente para modelar tabelas de contingência maciças de várias vias.
fonte
O que vem à sua mente intuitivamente? Você quer contar as combinações, por que não encontrar todas as combinações possíveis e simplesmente contar? Sugiro que você analise a mineração de conjuntos de itens frequentes.
Wikipedia - Apriori
Aqui estão algumas implementações do mesmo:
Mineração de padrão de frequência
fonte