Modelos de tópicos e métodos de co-ocorrência de palavras

26

Modelos de tópicos populares como o LDA geralmente agrupam palavras que tendem a co-ocorrer juntas no mesmo tópico (cluster).

Qual é a principal diferença entre esses modelos de tópicos e outras abordagens simples de cluster baseadas em co-ocorrência como o PMI? (PMI, sigla em inglês: Pointwise Mutual Information, e é usado para identificar as palavras que co-ocorrem com uma determinada palavra.)

kanzen_master
fonte

Respostas:

32

Recentemente, um enorme corpo de literatura discutindo como extrair informações de textos escritos aumentou. Portanto, descreverei apenas quatro marcos / modelos populares e suas vantagens / desvantagens e, assim, destacarei (algumas) as principais diferenças (ou pelo menos o que eu acho que são as principais / mais importantes).

Você menciona a abordagem "mais fácil", que seria agrupar os documentos comparando-os com uma consulta predefinida de termos (como no PMI). Entretanto, esses métodos de correspondência lexical podem ser imprecisos devido à polissemia (múltiplos significados) e sinonímia (várias palavras que têm significados semelhantes) de termos únicos.

Como solução, a indexação semântica latente ( LSI ) tenta superar isso mapeando termos e documentos em um espaço semântico latente por meio de uma decomposição de valor singular. Os resultados do LSI são indicadores de significado mais robustos do que os termos individuais seriam. No entanto, uma desvantagem do LSI é a falta de bases probabilísticas sólidas.

Isso foi parcialmente resolvido pela invenção do LSI probabilístico ( pLSI ). Nos modelos pLSI, cada palavra em um documento é extraída de um modelo de mistura especificado por meio de variáveis ​​aleatórias multinomiais (o que também permite co-ocorrências de ordem superior, como @sviatoslav hong mencionado). Este foi um passo importante na modelagem probabilística de texto, mas foi incompleto no sentido de que não oferece estrutura probabilística no nível dos documentos.

A Alocação Dirichlet Latente ( LDA ) alivia isso e foi o primeiro modelo totalmente probabilístico para agrupamento de texto. Blei et al. (2003) mostram que o pLSI é um modelo LDA máximo estimado a posteriori sob um Dirichlet uniforme anterior.

Observe que os modelos mencionados acima (LSI, pLSI, LDA) têm em comum que eles são baseados no pressuposto de "saco de palavras" - ou seja, que em um documento as palavras são trocáveis, ou seja, a ordem das palavras em um documento pode ser negligenciado. Essa suposição de permutabilidade oferece uma justificativa adicional para a LDA em relação a outras abordagens: supondo que não apenas as palavras nos documentos sejam permutáveis, mas também documentos, ou seja, a ordem dos documentos dentro de um corpus pode ser negligenciada, o teorema de De Finettiafirma que qualquer conjunto de variáveis ​​aleatórias trocáveis ​​tem uma representação como uma distribuição de mistura. Portanto, se a permutabilidade de documentos e palavras dentro dos documentos for assumida, é necessário um modelo de mistura para ambos. Exatamente é isso que o LDA geralmente alcança, mas o PMI ou o LSI não conseguem (e até o pLSI não é tão bonito quanto o LDA).

Momo
fonte
2
1/2 Obrigado! Muito claro. Deixe-me verificar se entendi direito: no LSI, os documentos são formados por uma mistura de palavras (sem noção de tópicos) e as palavras e os documentos são mapeados para um espaço semântico de menor dimensão usando SVD. Como palavras com significado semântico semelhante são mapeadas para mais perto, ela pode lidar com a sinonímia, mas tem problemas com a polissemia. O pLSI resolve o problema da polisemia introduzindo o conceito de tópicos. No pLSI, as palavras são extraídas de uma distribuição multinomial de palavras (tópicos), a mesma palavra pode pertencer a vários tópicos e um documento possui vários tópicos, embora isso não seja modelado explicitamente.
Kanzen_master 16/07/2012
2
Eu acho que geralmente você entende direito. Algumas correções menores: Considera-se que o LSI funciona bem com a polissemia e a sinomia. O pLSI é basicamente uma formulação para alcançar o que o LSI se esforça com as ferramentas de análise de classe latente / modelos de mistura e modelos e probabilidade, em vez de apenas álgebra linear. O LDA, em comparação com o pLSI, é um modelo totalmente generativo, especificando uma distribuição de tópicos por documento.
Momo
11
Em relação aos seus pontos de sobreajuste e previsão, não tenho conhecimento suficiente para uma declaração qualificada. Mas, por todo o seu valor, não vejo por que o LDA deve ser menos propenso a sobreajuste do que o pLSI (como o LDA basicamente apenas adiciona um modelo anterior ao pLSI). Ambos não têm correção embutida para sobreajuste ou algo semelhante. A "previsão" de novos documentos pode realmente ser mais fácil ou viável com um modelo totalmente generativo como o LDA, consulte stats.stackexchange.com/questions/9315/…. Mas eu consideraria o LDA um modelo descritivo e não supervisionado.
Momo
11
Obrigado novamente! Apenas duas questões finais: (1) Em relação à polissemia, neste pdf, final da página 3 Hoffman afirma que uma das diferenças de PLSI em comparação com LSI é polissemia, pois a mesma palavra pode pertencer a diferentes distribuições de palavras (tópicos); foi por isso que pensei que o LSI não funcionava com a polissemia. (2) Com relação à super adaptação, este blog afirma que um aumento linear de parâmetros sugere que o modelo é propenso a super adaptação. O que você acha ?
Kanzen_master 16/07/2012
2
Sem problemas. Você já sabe muito sobre essas coisas, então eu também aprendo coisas. ad (1) Bem, como sempre, isso depende: o LSI pode lidar com a polissemia devido à combinação linear de termos, como feita no PCA. Faz isso melhor com sinônimos, mas até certo ponto também com polissemia. Palavras basicamente polissêmicas que são semelhantes são componentes adicionados de palavras que compartilham um significado semelhante. No entanto, faz muito menos bem que o pLSI, pois cada ocorrência de uma palavra é representada como um único ponto no espaço. A representação da palavra é, portanto, uma média de todos os diferentes significados da palavra no corpus.
Momo
5

O LDA pode capturar uma ordem superior de co-ocorrências de termos (devido ao pressuposto de que cada tópico é uma distribuição multinomial sobre termos), o que não é possível apenas computando o PMI entre os termos.

Liangjie Hong
fonte
4
Obrigado! Qual é a definição de "alta ordem de co-ocorrências"?
kanzen_master
5

Posso demorar três anos, mas quero acompanhar sua pergunta no exemplo de "alta ordem de co-ocorrências".

Basicamente, se o termo t1 co-ocorre com o termo t2 que co-ocorre com o termo t3, então o termo t1 é a co-ocorrência de segunda ordem com o termo t3. Você pode ir para uma ordem superior, se quiser, mas no final controla como as duas palavras devem ser semelhantes.

suthee
fonte