Quais são as diferenças nas inferências que podem ser feitas a partir de uma análise de classe latente (ACV) versus uma análise de cluster? É correto que uma ACV assuma uma variável latente subjacente que dê origem às classes, enquanto a análise de cluster é uma descrição empírica de atributos correlatos de um algoritmo de cluster? Parece que, nas ciências sociais, a ACV ganhou popularidade e é considerada metodologicamente superior, uma vez que possui um teste formal de significância qui-quadrado, o que a análise de agrupamentos não possui.
Seria ótimo se exemplos pudessem ser oferecidos na forma de "LCA seria apropriado para isso (mas não análise de cluster), e análise de cluster seria apropriada para isso (mas não análise de classe latente).
Obrigado! Brian
fonte
inferences
neste contexto e por que apenas as diferenças de inferência lhe interessam?Respostas:
A Análise de Classe Latente é de fato um Modelo de Mistura Finita (veja aqui ). A principal diferença entre o FMM e outros algoritmos de clustering é que o FMM oferece uma abordagem de "cluster baseado em modelo" que deriva clusters usando um modelo probabilístico que descreve a distribuição de seus dados. Portanto, em vez de encontrar clusters com alguma medida de distância escolhida arbitrariamente, use um modelo que descreva a distribuição de seus dados e, com base nesse modelo, avalie as probabilidades de que determinados casos sejam membros de determinadas classes latentes. Então, você poderia dizer que é uma abordagem de cima para baixo (você começa com a descrição da distribuição de seus dados), enquanto outros algoritmos de cluster são abordagens bastante de baixo para cima (você encontra semelhanças entre os casos).
Como você usa um modelo estatístico para a seleção do modelo de dados e a avaliação da qualidade do ajuste são possíveis - ao contrário do cluster. Além disso, se você presumir que existe algum processo ou "estrutura latente" subjacente à estrutura de seus dados, os FMMs parecem ser uma escolha apropriada, pois permitem modelar a estrutura latente atrás de seus dados (em vez de apenas procurar similaridades).
Outra diferença é que os FMMs são mais flexíveis que o clustering. Os algoritmos de agrupamento apenas agrupam, enquanto existem modelos baseados em FMM e LCA que
Para mais exemplos, consulte:
ea documentação de flexmix e polca pacotes em R, incluindo os seguintes documentos:
fonte
Um modelo de classe latente (ou perfil latente, ou mais geralmente, um modelo de mistura finita) pode ser pensado como um modelo probablístico para agrupamento (ou classificação não supervisionada). O objetivo geralmente é o mesmo - identificar grupos homogêneos em uma população maior. Penso que as principais diferenças entre modelos de classes latentes e abordagens algorítmicas do agrupamento são que o primeiro obviamente se presta a especulações mais teóricas sobre a natureza do agrupamento; e como o modelo de classe latente é probablístico, fornece alternativas adicionais para avaliar o ajuste do modelo por meio de estatísticas de probabilidade e captura / retém melhor a incerteza na classificação.
Você pode encontrar alguns petiscos úteis neste tópico , bem como esta resposta em uma postagem relacionada por chl.
Também existem paralelos (em um nível conceitual) com essa pergunta sobre análise de fatores de PCA versus fator, e esta também.
fonte
A diferença é que a Análise de Classe Latente usaria dados ocultos (que geralmente são padrões de associação nos recursos) para determinar probabilidades de recursos na classe. Em seguida, é possível fazer inferências usando a probabilidade máxima de separar itens em classes com base em seus recursos.
A análise de cluster plota os recursos e usa algoritmos como vizinhos mais próximos, densidade ou hierarquia para determinar a quais classes um item pertence.
Basicamente, a inferência da ACV pode ser pensada como "o que é o padrão mais semelhante usando probabilidade" e a análise de cluster seria "o que é o mais próximo usando a distância".
fonte