Quais são os métodos estatísticos que posso usar para encontrar combinações populares ou comuns de variáveis ​​categóricas?

10

Estou fazendo um estudo sobre o uso de drogas múltiplas. Eu tenho um conjunto de dados de 400 viciados em drogas, cada um declarando as drogas que abusam. Existem mais de 10 medicamentos e, portanto, existem grandes combinações possíveis. Recodifiquei a maioria das drogas que eles consomem em variáveis ​​binárias (ie heroína é 1 se um viciado em drogas abusou de heroína mais 0). Gostaria de encontrar as combinações populares ou comuns de 2 ou 3 drogas. Existem métodos estatísticos que eu posso usar?

tatami
fonte

Respostas:

6

Existem apenas 1024 combinações possíveis de medicamentos a serem usados ​​juntos (se houvesse apenas 10 medicamentos), supondo que cada usuário tenha usado pelo menos 1 medicamento. Você pode simplesmente converter suas variáveis ​​0/1 em string e concatená-las e executar análises de frequência na string para ver quais combinações aparecem com mais frequência. Tomando um exemplo de brinquedo, digamos que apenas três drogas, A, B e C, estavam em seu estudo. Se um participante usasse os medicamentos A e C, a variável alldrugspoderia ser codificada 101. Um participante que usasse apenas o medicamento B seria codificado 010. Execute frequências neles para encontrar o selecionado com mais frequência. A maioria dos softwares deve ser capaz de processar isso em segundos.

Estatísticas
fonte
11
Acordado. Existem apenas 400 viciados, portanto esses 1024 não podem ocorrer todos.
Nick Cox
Sim. Isso deve ser um pedaço de bolo.
StatsStudent
5

A modelagem de classe latente seria uma abordagem de aprendizado supervisionado para encontrar partições ou grupos subjacentes "ocultos" ou agrupamentos de drogas e usuários de drogas. A LC é um método muito flexível, com duas abordagens amplas: replicações baseadas em medidas repetidas para um único sujeito versus replicações baseadas na classificação cruzada de um conjunto de variáveis ​​categóricas. Seus dados se encaixariam no segundo tipo.

A flexibilidade dos LCs é uma função de sua capacidade de absorver "misturas" de variáveis ​​com diferentes escalas (por exemplo, categóricas ou contínuas). Como a abordagem encontra partições, segmentos ou clusters ocultos nos dados, também pode ser considerada uma técnica de redução de dimensão.

Todos os modelos de LC têm 2 estágios: no estágio 1, uma variável dependente ou alvo é identificada e um modelo de regressão é construído. No estágio 2, o residual (um único vetor "latente") do modelo do estágio 1 é analisado e partições são criadas capturando a variabilidade (ou heterogeneidade) - as "classes latentes" - nesse vetor.

O freeware está disponível para download que provavelmente funcionaria muito bem para você. Um deles é um módulo R chamado polCA, disponível aqui:

http://www.jstatsoft.org/article/view/v042i10

Se você tem cerca de US $ 1.000 para gastar em um produto comercial, o Latent Gold está disponível em www.statisticalinnovations.com. Depois de usar o Latent Gold há anos, sou um grande fã desse produto por seu poder analítico e variedade de soluções. Por exemplo, o polCA é útil apenas para modelos de LC com informações categóricas, enquanto a LG trabalha em geral ... além disso, seus desenvolvedores estão sempre adicionando novos módulos. A adição mais recente constrói modelos de LC usando cadeias ocultas de Markov. Mas lembre-se de que a LG não é uma plataforma de dados "ponta a ponta", ou seja, não é boa para manipulação ou levantamento de dados pesados.

Caso contrário, existem inúmeras outras abordagens para analisar informações categóricas que são amplamente suportadas por softwares estatísticos como R, SPSS, SAS, Python, etc. Isso inclui análise de tabelas de contingência, modelos log-lineares, modelos de mistura finita, regressão de tensores bayesianos, e assim por diante. A literatura nessa área é extensa e começou com Bishop et al., Análise Multivariada Discreta em 1975, estende-se aos modelos de RC de Leo Goodman com base em seu trabalho realizado desde os anos 80, na Análise de Dados Categorizados de Agresti , livros de Stephen Fienberg e inclui Thomas Wickens excelente livro Análise de Tabelas de Contingência Multiway para as Ciências Sociais publicado em 1989. Regressão Bayesiana de Tensores é o título de um artigo de David Dunson da Duke e é uma espécie de "estado da arte" por ser um método muito recente para modelar tabelas de contingência maciças de várias vias.

Mike Hunter
fonte
amo a lista de referências!
Chris
3

O que vem à sua mente intuitivamente? Você quer contar as combinações, por que não encontrar todas as combinações possíveis e simplesmente contar? Sugiro que você analise a mineração de conjuntos de itens frequentes.

Wikipedia - Apriori

Aqui estão algumas implementações do mesmo:

Mineração de padrão de frequência

Harsh Nisar
fonte