Extrair as partes mais informativas do texto dos documentos

16

Existem artigos ou discussões sobre a extração de parte do texto que contêm mais informações sobre o documento atual.

Por exemplo, eu tenho um grande corpus de documentos do mesmo domínio. Há partes do texto que contêm as principais informações sobre as quais um único documento fala. Quero extrair algumas dessas partes e usá-las como uma espécie de resumo do texto. Existe alguma documentação útil sobre como conseguir algo assim.

Seria realmente útil se alguém pudesse me apontar na direção certa o que eu deveria procurar ou ler para ter uma ideia do trabalho que já pode ter sido feito neste campo do processamento de linguagem natural.

MaticDiba
fonte

Respostas:

23

O que você está descrevendo é geralmente alcançado usando uma combinação simples de TF-IDF e resumo extrativo .

Em poucas palavras, o TF-IDF informa a importância relativa de cada palavra em cada documento, em comparação com o restante do seu corpus. Neste ponto, você tem uma pontuação para cada palavra em cada documento, aproximando sua "importância". Em seguida, você pode usar essas pontuações individuais de palavras para calcular uma pontuação composta para cada frase, somando as pontuações de cada palavra em cada frase. Por fim, basta considerar as frases com a pontuação mais alta de cada documento como resumo.

No início deste ano, montei um Notebook iPython que culmina com uma implementação disso em Python usando NLTK e Scikit-learn: um conhecimento diferenciado da PNL em Python .

Charlie Greenbacker
fonte
2
Sim, provavelmente seria isso. Eu também poderia adicionar pesos adicionais a algumas palavras, que eu já sei que são informativas. Obrigado pela sua ajuda e links úteis.
MatricDiba
Então, posso usar isso em um pdf? :)
Adam
Sim, você pode usar isso no texto de um PDF, assumindo que você já extraiu o texto sem formatação do PDF usando algo como pdftotext.
Charlie Greenbacker
1

Muitas técnicas de extração de palavras-chave por aí dependem de fatores como:

  1. Qualidade gramatical do texto
  2. Comprimento do texto
  3. Se você está procurando uma única palavra-chave ou frasal, etc.

Mas, em geral, se você tem um texto longo e deseja extrair palavras-chave automaticamente, recomendo que você siga os seguintes artigos:

  1. TextRank

  2. RAKE [Extração automática rápida de palavras-chave]

  3. Topica

Também para extrair palavras-chave personalizadas (especiais) que não são apresentadas pelas técnicas acima, dê uma olhada no post abaixo:

Extrair palavras-chave personalizadas usando o marcador NLTK POS em python

anindya
fonte