Dada uma frase como:
Complimentary gym access for two for the length of stay ($12 value per person per day)
Que abordagem geral posso adotar para identificar a palavra academia ou acesso à academia?
machine-learning
nlp
text-mining
data-cleaning
William Falcon
fonte
fonte
Respostas:
Raso N atural L anguage P técnica rocessing pode ser usado para extrair conceitos de frase.
-------------------------------------------
Etapas técnicas da PNL rasa:
1) Converta a frase para minúscula
2) Remova palavras irrelevantes (são palavras comuns encontradas em um idioma. Palavras como para, muito e, de, são, etc, são palavras comuns)
3) Extraia n-grama, isto é, uma sequência contígua de n itens de uma determinada sequência de texto (simplesmente aumentando n, o modelo pode ser usado para armazenar mais contexto)
4) Atribua um rótulo sintático (substantivo, verbo etc.)
5) Extração de conhecimento do texto através da abordagem de análise semântica / sintática, isto é, tente reter palavras que tenham maior peso em uma frase como Substantivo / Verbo
-------------------------------------------
Vamos examinar os resultados da aplicação das etapas acima à sua frase
Complimentary gym access for two for the length of stay ($12 value per person per day)
.1 grama Resultados: academia, acesso, duração, estadia, valor, pessoa, dia
Permite aumentar n para armazenar mais contexto e remover palavras irrelevantes.
2 gramas Resultados: academia de cortesia, acesso à academia, duração da estadia, estadia
Resultados em 3 gramas: acesso gratuito à academia, valor da estadia, pessoa por dia
Coisas para lembrar:
Ferramentas:
Você pode considerar o uso do OpenNLP / StanfordNLP para marcação de parte do discurso. A maioria da linguagem de programação possui biblioteca de suporte para OpenNLP / StanfordNLP. Você pode escolher o idioma com base no seu conforto. Abaixo está o código R de amostra que usei para a marcação PoS.
Código R de amostra:
Leituras adicionais sobre PNL superficial e profunda:
Processamento superficial e profundo da PNL para aprendizado de ontologia: uma visão geral rápida Clique aqui
Integrando a PNL superficial e profunda para extração de informações, clique aqui
fonte
Você precisa analisar a estrutura da sentença e extrair as categorias sintáticas correspondentes de interesse (nesse caso, acho que seria uma frase substantiva , que é uma categoria frasal ). Para obter detalhes, consulte o artigo correspondente da Wikipedia e o capítulo "Analisando a estrutura das frases" do livro do NLTK.
Em relação às ferramentas de software disponíveis para implementar a abordagem acima mencionada e além, sugiro considerar o software NLTK (se você preferir Python) ou StanfordNLP (se você preferir Java). Para muitas outras estruturas de PNL, bibliotecas e programação de vários idiomas, consulte as seções correspondentes (PNL) nesta excelente lista com curadoria .
fonte
Se você é um usuário R, há muitas informações práticas boas em http://www.rdatamining.com . Veja os exemplos de mineração de texto.
Além disso, dê uma olhada no pacote tm.
Este também é um bom site de agregação - http://www.tapor.ca/
fonte