Suponha que eu tenha um texto como o abaixo, que geralmente tem 2/3 frases e 100-200 caracteres.
Johny comprou leite de 50 dólares do walmart. Agora ele deixou apenas 20 dólares.
Eu quero extrair
Nome da pessoa: Johny
Gasto: 50 dólares
Dinheiro restante: 20 dólares.
Passado para onde: Walmart.
Passei por muito material na rede neural recorrente. Assistiu ao vídeo cs231n na RNN e entendeu a próxima previsão de personagem. Nesses casos, definimos 26 caracteres que podemos usar como classes de saída para encontrar o próximo caractere usando probabilidade. Mas aqui o problema parece completamente diferente porque não conhecemos as classes de saída. A saída depende das palavras e números no texto, que podem ser qualquer palavra ou número aleatório.
Li no Quora que a rede neural convolucional também pode extrair recursos no texto. Querendo saber se isso também pode resolver esse problema específico?
Respostas:
O problema que você coloca aqui é chamado de reconhecimento de entidade nomeada (NER) ou extração de entidade nomeada.
Existem várias tecnologias (redes neurais não necessárias) que podem ser usadas para esse problema, e algumas delas são bastante maduras. Veja, por exemplo, este repositório para obter uma solução fácil de conectar, ou tente aplicar a
ne_chunk_sents
função doNLTK
módulo em Python.fonte
Eu acho que você poderia analisar a análise de dependência . As suas tuplas de fato podem ser extraídas das arestas no gráfico de dependência.
PS1 Se você quiser fazer algo na PNL, verifique o cs224n e não o cs231n. Recordo também que o cs224 contém uma seção sobre DL para análise de dependência.
PS2 A árvore de dependência foi retirada do Stanford Neural Network Dependency Parser
fonte