Recentemente, um enorme corpo de literatura discutindo como extrair informações de textos escritos aumentou. Portanto, descreverei apenas quatro marcos / modelos populares e suas vantagens / desvantagens e, assim, destacarei (algumas) as principais diferenças (ou pelo menos o que eu acho que são as principais / mais importantes).
Você menciona a abordagem "mais fácil", que seria agrupar os documentos comparando-os com uma consulta predefinida de termos (como no PMI). Entretanto, esses métodos de correspondência lexical podem ser imprecisos devido à polissemia (múltiplos significados) e sinonímia (várias palavras que têm significados semelhantes) de termos únicos.
Como solução, a indexação semântica latente ( LSI ) tenta superar isso mapeando termos e documentos em um espaço semântico latente por meio de uma decomposição de valor singular. Os resultados do LSI são indicadores de significado mais robustos do que os termos individuais seriam. No entanto, uma desvantagem do LSI é a falta de bases probabilísticas sólidas.
Isso foi parcialmente resolvido pela invenção do LSI probabilístico ( pLSI ). Nos modelos pLSI, cada palavra em um documento é extraída de um modelo de mistura especificado por meio de variáveis aleatórias multinomiais (o que também permite co-ocorrências de ordem superior, como @sviatoslav hong mencionado). Este foi um passo importante na modelagem probabilística de texto, mas foi incompleto no sentido de que não oferece estrutura probabilística no nível dos documentos.
A Alocação Dirichlet Latente ( LDA ) alivia isso e foi o primeiro modelo totalmente probabilístico para agrupamento de texto. Blei et al. (2003) mostram que o pLSI é um modelo LDA máximo estimado a posteriori sob um Dirichlet uniforme anterior.
Observe que os modelos mencionados acima (LSI, pLSI, LDA) têm em comum que eles são baseados no pressuposto de "saco de palavras" - ou seja, que em um documento as palavras são trocáveis, ou seja, a ordem das palavras em um documento pode ser negligenciado. Essa suposição de permutabilidade oferece uma justificativa adicional para a LDA em relação a outras abordagens: supondo que não apenas as palavras nos documentos sejam permutáveis, mas também documentos, ou seja, a ordem dos documentos dentro de um corpus pode ser negligenciada, o teorema de De Finettiafirma que qualquer conjunto de variáveis aleatórias trocáveis tem uma representação como uma distribuição de mistura. Portanto, se a permutabilidade de documentos e palavras dentro dos documentos for assumida, é necessário um modelo de mistura para ambos. Exatamente é isso que o LDA geralmente alcança, mas o PMI ou o LSI não conseguem (e até o pLSI não é tão bonito quanto o LDA).
O LDA pode capturar uma ordem superior de co-ocorrências de termos (devido ao pressuposto de que cada tópico é uma distribuição multinomial sobre termos), o que não é possível apenas computando o PMI entre os termos.
fonte
Posso demorar três anos, mas quero acompanhar sua pergunta no exemplo de "alta ordem de co-ocorrências".
Basicamente, se o termo t1 co-ocorre com o termo t2 que co-ocorre com o termo t3, então o termo t1 é a co-ocorrência de segunda ordem com o termo t3. Você pode ir para uma ordem superior, se quiser, mas no final controla como as duas palavras devem ser semelhantes.
fonte