Extração de palavras-chave / frase do Texto usando bibliotecas do Deep Learning

20

Talvez isso seja muito amplo, mas estou procurando referências sobre como usar o aprendizado profundo em uma tarefa de resumo de texto.

Eu já implementei a sumarização de texto usando abordagens padrão de frequência de palavras e classificação de frases, mas gostaria de explorar a possibilidade de usar técnicas de aprendizado profundo para esta tarefa. Também passei por algumas implementações fornecidas no wildml.com usando Redes Neurais Convolucionais (CNN) para análise de sentimentos; Gostaria de saber como é possível usar bibliotecas como TensorFlow ou Theano para resumir o texto e extrair palavras-chave. Faz cerca de uma semana desde que comecei a experimentar redes Neurais, e estou realmente empolgado ao ver como o desempenho dessas bibliotecas se compara às minhas abordagens anteriores para esse problema.

Estou particularmente procurando alguns artigos interessantes e projetos no github relacionados à sumarização de texto usando essas estruturas. Alguém pode me fornecer algumas referências?

shanky_thebearer
fonte

Respostas:

15

O Blog de pesquisa do Google deve ser útil no contexto do TensorFlow .

No artigo acima, há uma referência ao conjunto de dados Annotated English Gigaword que é rotineiramente usado para resumo de texto.

O artigo de 2014 de Sutskever et al, intitulado Sequence to Sequence Learning with Neural Networks, pode ser um começo significativo em sua jornada, pois, para textos mais curtos, a sumarização pode ser aprendida de ponta a ponta com uma técnica de aprendizado profundo.

Por fim, aqui está um ótimo repositório do Github que demonstra o resumo de texto enquanto faz uso do TensorFlow.

Sociedade de Cientistas de Dados
fonte
16

Essa é uma área aberta de pesquisa e certamente depende da maneira como você define o problema. Se você está falando de resumo de vários documentos, o problema é um pouco diferente do que se você estivesse falando de resumo de documento único.

Vale a pena revisar brevemente a literatura.

O link fornecido por u / Society Of Data Scientists é ótimo e é útil para a tarefa de resumo abstrativo em um único documento. Também há trabalho feito em resumos extrativos , que identificam frases importantes a serem extraídas.

Rush et. al tem um bom artigo sobre a sumarização abstrata com Atenção , que é baseada em aprendizado profundo.

Para um resumo extrativo, você pode usar um LSTM para criar seu classificador e usar as bibliotecas padrão do TensorFlow / Torch, mas não parece haver nenhuma publicação atual sobre o uso de aprendizado profundo para essa abordagem.

Aqui estão alguns repositórios adicionais do GitHub:

franciscojavierarceo
fonte
Obrigado @franciscojavierarceo, examinarei os artigos acima mencionados.
Shanky_thebearer
4

Parece que isso é uma sumarização mais extrativa se você estiver procurando por palavras-chave. Aqui estão alguns documentos que provavelmente têm implementações:

Resumo resumido extraindo frases e palavras

Resumo resumido usando Deep Learning

Redes neurais convolucionais semi-supervisionadas para categorização de texto via incorporação de região

Além disso, o SpaCy (não afiliado) possui um bom blog sobre a arquitetura geral das tarefas de extração de texto.

Pavel Savine
fonte