Estou investigando várias técnicas usadas no agrupamento de documentos e gostaria de esclarecer algumas dúvidas sobre o PCA (análise de componentes principais) e LSA (análise semântica latente).
Primeira coisa - quais são as diferenças entre eles? Eu sei que no PCA, a decomposição de SVD é aplicada à matriz de covariância a termo, enquanto na LSA é a matriz de termo-documento. Mais alguma coisa?
Segundo - qual é o papel deles no procedimento de agrupamento de documentos? Pelo que li até agora, deduzo que o objetivo deles é reduzir a dimensionalidade, reduzir o ruído e incorporar as relações entre os termos na representação. Após a execução do PCA ou LSA, algoritmos tradicionais como meios-k ou métodos aglomerativos são aplicados no espaço de termo reduzido e medidas típicas de similaridade, como distância do cosseno, são usadas. Por favor me corrija se eu estiver errado.
Terceiro - importa se os vetores de termo TF / IDF são normalizados antes de aplicar PCA / LSA ou não? E eles devem ser normalizados novamente depois disso?
Quarto - digamos que eu realizei alguns agrupamentos no termo espaço reduzido pelo LSA / PCA. Agora, como devo atribuir rótulos aos clusters de resultados? Como as dimensões não correspondem às palavras reais, é uma questão difícil. A única idéia que me vem à mente é computar centróides para cada cluster usando vetores de termos originais e selecionando termos com pesos superiores, mas isso não parece muito eficiente. Existem algumas soluções específicas para esse problema? Não consegui encontrar nada.
Ficarei muito grato por esclarecer essas questões.
fonte
Respostas:
fonte
O LSI é calculado na matriz termo-documento, enquanto o PCA é calculado na matriz de covariância, o que significa que o LSI tenta encontrar o melhor subespaço linear para descrever o conjunto de dados, enquanto o PCA tenta encontrar o melhor subespaço linear paralelo.
fonte
Apenas uma extensão da resposta de russellpierce.
1) Essencialmente, o LSA é o PCA aplicado aos dados de texto. Ao usar o SVD para PCA, ele não é aplicado à matriz de covariância, mas diretamente à matriz de recurso-amostra, que é apenas a matriz termo-documento no LSA. A diferença é que o PCA geralmente requer normalização em termos de recursos para os dados, enquanto o LSA não.
Há uma boa palestra de Andrew Ng que ilustra as conexões entre PCA e LSA.
2/3) Como os dados do documento são de vários comprimentos, geralmente é útil normalizar a magnitude. Aqui, a normalização em termos de amostra deve ser usada, não a normalização em termos de recursos. Na prática, achei útil normalizar antes e depois do LSI.
Se a métrica do algoritmo de agrupamento não depender da magnitude (por exemplo, distância do cosseno), a última etapa de normalização poderá ser omitida.
4) Acha que esse é, em geral, um problema difícil de obter rótulos significativos dos clusters. Algumas pessoas extraem termos / frases que maximizam a diferença na distribuição entre o corpus e o cluster. Outra maneira é usar o cluster semi-supervisionado com rótulos predefinidos.
fonte