Existem artigos ou discussões sobre a extração de parte do texto que contêm mais informações sobre o documento atual.
Por exemplo, eu tenho um grande corpus de documentos do mesmo domínio. Há partes do texto que contêm as principais informações sobre as quais um único documento fala. Quero extrair algumas dessas partes e usá-las como uma espécie de resumo do texto. Existe alguma documentação útil sobre como conseguir algo assim.
Seria realmente útil se alguém pudesse me apontar na direção certa o que eu deveria procurar ou ler para ter uma ideia do trabalho que já pode ter sido feito neste campo do processamento de linguagem natural.
fonte
Muitas técnicas de extração de palavras-chave por aí dependem de fatores como:
Mas, em geral, se você tem um texto longo e deseja extrair palavras-chave automaticamente, recomendo que você siga os seguintes artigos:
TextRank
RAKE [Extração automática rápida de palavras-chave]
Topica
Também para extrair palavras-chave personalizadas (especiais) que não são apresentadas pelas técnicas acima, dê uma olhada no post abaixo:
Extrair palavras-chave personalizadas usando o marcador NLTK POS em python
fonte