Eu tenho trabalhado no desenvolvimento de um sistema "Convertendo a linguagem natural em consulta SQL".
Li as respostas de perguntas semelhantes, mas não consegui obter as informações que estava procurando.
Abaixo está o fluxograma para esse sistema, obtido de Um algoritmo para transformar a linguagem natural em consultas SQL para bancos de dados relacionais de Garima Singh, Arun Solanki
Eu entendi até parte da etapa de marcação de fala. Mas como abordar as etapas restantes.
- Preciso treinar todas as consultas SQL possíveis?
- Ou, depois que parte da marcação de fala é concluída, tenho que brincar com as palavras e formar uma consulta SQL?
Editar: implementei com êxito a etapa "consulta do usuário" para "Parte da marcação da fala".
Obrigado.
Respostas:
Se você quiser resolver o problema de outra perspectiva, com um aprendizado de ponta a ponta , para não especificar antecipadamente esse grande pipeline mencionado anteriormente, tudo o que importa é o mapeamento entre as frases e o SQL correspondente. consultas.
Tutoriais:
Como falar com seu banco de dados
Papéis:
Seq2SQL: Gerando consultas estruturadas a partir de linguagem natural usando a força de vendas do Aprendizado por reforço
Neural Enquirer: aprendendo a consultar tabelas em linguagem natural
Conjunto de dados:
Um grande corpus de análise semântica anotada para o desenvolvimento de interfaces de linguagem natural.
Código do Github:
Além disso, existem soluções comerciais como o nlsql
fonte
O NLTK possui um excelente guia passo a passo sobre tudo o que você precisa para converter a linguagem humana em uma consulta SQL usando o pacote nltk em python.
É rudimentar, mas responde à sua pergunta.
fonte
Para complementar a resposta de Fadi, a seguir estão outros documentos úteis sobre métodos NL para SQL. A principal diferença desses métodos é que eles suportam consultas que devem ser respondidas usando mais de uma tabela (juntando-se a tabelas diferentes); no entanto, o documento do Salesforce (e seu conjunto de dados) concentra-se em consultas em uma tabela por vez.
Ambos os documentos usam o conjunto de dados GeoQuery disponível aqui .
fonte