Quais são as diferenças entre análise semântica latente (LSA), indexação semântica latente (LSI) e decomposição de valor singular (SVD)?

15

Esses termos são reunidos muito, mas eu gostaria de saber quais são as diferenças, se houver.

obrigado

Neil McGuigan
fonte

Respostas:

12

LSA e LSI são usados ​​principalmente como sinônimos, com a comunidade de recuperação de informações geralmente se referindo a ela como LSI. O LSA / LSI usa SVD para decompor a matriz termo-documento A em uma matriz termo-conceito U, uma matriz de valor singular S e uma matriz conceito-documento V no formato: A = USV '. A página da wikipedia possui uma descrição detalhada da indexação semântica latente .

ebony1
fonte
8

Notavelmente, enquanto o LSA e o LSI usam o SVD para fazer sua mágica, existe um método computacional e conceitualmente mais simples chamado HAL (Hyperspace Analogue to Language) que peneira o texto, acompanhando os contextos anteriores e subseqüentes. Os vetores são extraídos dessas matrizes de co-ocorrência (geralmente ponderadas) e palavras específicas são selecionadas para indexar o espaço semântico. De muitas maneiras, entendi que ele tem um desempenho tão bom quanto o LSA sem exigir a etapa matematicamente / conceitualmente complexa do SVD. Veja Lund & Burgess, 1996 para detalhes.

russellpierce
fonte
4
... recapitulando trabalhos anteriores de Finch e Chater (1992, 1994), Schütze (1993) e outros. HAL, LSA e outros trabalhos da técnica anterior, gerando uma medida de similaridade para palavras, calculando sua similaridade contextual. (Essa é a semelhança de "segunda ordem" de Shephard: a semelhança de "primeira ordem" ocorre quando a palavra a ocorre próxima à palavra b; a semelhança de "segunda ordem" é que a palavra a ocorre próximo aos mesmos tipos de palavras que a palavra b).
conjugateprior
3
Comparando e contrastando: para o LSA, o contexto é o documento completo. Para HAL e outros, é uma janela de texto em torno da palavra de destino. O LSA mede a distância em um subespaço linear extraído via SVD / PCA, e o outro trata de distâncias no espaço original das contagens de palavras ao redor.
conjugateprior
6

NMF e SVD são ambos algoritmos de fatoração de matriz. A Wikipedia tem algumas informações relevantes sobre NMF .

AA=AA

Os outros respondedores cobriram LSI / LSA ...

Emre
fonte
deve ser matriz de covariância, certo? não a matriz de correlação.
Rafael
Sim, a menos que você centralize suas variáveis ​​primeiro.
Emre
após normalização das variáveis, torna-se matriz de correlação?
Rafael
A normalização está centrada no dimensionamento, então isso é diferente.
Emre