Análise de Classe Latente vs. Análise de Cluster - diferenças nas inferências?

30

Quais são as diferenças nas inferências que podem ser feitas a partir de uma análise de classe latente (ACV) versus uma análise de cluster? É correto que uma ACV assuma uma variável latente subjacente que dê origem às classes, enquanto a análise de cluster é uma descrição empírica de atributos correlatos de um algoritmo de cluster? Parece que, nas ciências sociais, a ACV ganhou popularidade e é considerada metodologicamente superior, uma vez que possui um teste formal de significância qui-quadrado, o que a análise de agrupamentos não possui.

Seria ótimo se exemplos pudessem ser oferecidos na forma de "LCA seria apropriado para isso (mas não análise de cluster), e análise de cluster seria apropriada para isso (mas não análise de classe latente).

Obrigado! Brian

Brian P
fonte
11
O que você chama inferencesneste contexto e por que apenas as diferenças de inferência lhe interessam?
ttnphns
11
@ttnphns Por inferências, quero dizer a interpretação substantiva dos resultados. Não tenho certeza da última parte da sua pergunta sobre o meu interesse em "apenas diferenças nas inferências?" Não estou interessado na execução de seus respectivos algoritmos ou na matemática subjacente. Estou interessado em saber como os resultados seriam interpretados.
Brian P

Respostas:

27

A Análise de Classe Latente é de fato um Modelo de Mistura Finita (veja aqui ). A principal diferença entre o FMM e outros algoritmos de clustering é que o FMM oferece uma abordagem de "cluster baseado em modelo" que deriva clusters usando um modelo probabilístico que descreve a distribuição de seus dados. Portanto, em vez de encontrar clusters com alguma medida de distância escolhida arbitrariamente, use um modelo que descreva a distribuição de seus dados e, com base nesse modelo, avalie as probabilidades de que determinados casos sejam membros de determinadas classes latentes. Então, você poderia dizer que é uma abordagem de cima para baixo (você começa com a descrição da distribuição de seus dados), enquanto outros algoritmos de cluster são abordagens bastante de baixo para cima (você encontra semelhanças entre os casos).

Como você usa um modelo estatístico para a seleção do modelo de dados e a avaliação da qualidade do ajuste são possíveis - ao contrário do cluster. Além disso, se você presumir que existe algum processo ou "estrutura latente" subjacente à estrutura de seus dados, os FMMs parecem ser uma escolha apropriada, pois permitem modelar a estrutura latente atrás de seus dados (em vez de apenas procurar similaridades).

Outra diferença é que os FMMs são mais flexíveis que o clustering. Os algoritmos de agrupamento apenas agrupam, enquanto existem modelos baseados em FMM e LCA que

  • permitem fazer análises confirmatórias entre grupos,
  • combinar modelos da Teoria da resposta ao item (e outros) com ACV,
  • incluem covariáveis ​​para prever a associação de classe latente dos indivíduos,
  • e / ou até modelos de regressão dentro do cluster na regressão de classe latente ,
  • permitem modelar alterações ao longo do tempo na estrutura de seus dados etc.

Para mais exemplos, consulte:

Hagenaars JA e McCutcheon, AL (2009). Análise de Classe Latente Aplicada. Cambridge University Press.

ea documentação de flexmix e polca pacotes em R, incluindo os seguintes documentos:

Linzer, DA & Lewis, JB (2011). poLCA: Um pacote R para análise de classe latente de variáveis ​​politômicas. Journal of Statistical Software, 42 (10), 1-29.

Leisch, F. (2004). Flexmix: Uma estrutura geral para modelos de mistura finita e regressão de vidro latente em R. Journal of Statistical Software, 11 (8), 1-18.

Grün, B. & Leisch, F. (2008). FlexMix versão 2: misturas finitas com variáveis ​​concomitantes e parâmetros variáveis ​​e constantes . Journal of Statistical Software, 28 (4), 1-35.

Tim
fonte
3

Um modelo de classe latente (ou perfil latente, ou mais geralmente, um modelo de mistura finita) pode ser pensado como um modelo probablístico para agrupamento (ou classificação não supervisionada). O objetivo geralmente é o mesmo - identificar grupos homogêneos em uma população maior. Penso que as principais diferenças entre modelos de classes latentes e abordagens algorítmicas do agrupamento são que o primeiro obviamente se presta a especulações mais teóricas sobre a natureza do agrupamento; e como o modelo de classe latente é probablístico, fornece alternativas adicionais para avaliar o ajuste do modelo por meio de estatísticas de probabilidade e captura / retém melhor a incerteza na classificação.

Você pode encontrar alguns petiscos úteis neste tópico , bem como esta resposta em uma postagem relacionada por chl.

Também existem paralelos (em um nível conceitual) com essa pergunta sobre análise de fatores de PCA versus fator, e esta também.

DL Dahly
fonte
2

A diferença é que a Análise de Classe Latente usaria dados ocultos (que geralmente são padrões de associação nos recursos) para determinar probabilidades de recursos na classe. Em seguida, é possível fazer inferências usando a probabilidade máxima de separar itens em classes com base em seus recursos.

A análise de cluster plota os recursos e usa algoritmos como vizinhos mais próximos, densidade ou hierarquia para determinar a quais classes um item pertence.

Basicamente, a inferência da ACV pode ser pensada como "o que é o padrão mais semelhante usando probabilidade" e a análise de cluster seria "o que é o mais próximo usando a distância".

ccsv
fonte
Você pode esclarecer a que "coisa" se refere na declaração sobre análise de cluster? É o 'recurso' mais próximo com base em uma medida de distância?
Brian P
coisa seria objeto de um objeto ou qualquer dado que você inserir com os parâmetros do recurso.
ccsv