Perguntas com a marcação «nlp»

O processamento de linguagem natural (PNL) é um subcampo da inteligência artificial que envolve a transformação ou extração de informações úteis de dados de linguagem natural. Os métodos incluem aprendizado de máquina e abordagens baseadas em regras.

138
Detectando sílabas em uma palavra

Preciso encontrar uma maneira bastante eficiente de detectar sílabas em uma palavra. Por exemplo, Invisível -> in-vi-sib-le Existem algumas regras de silabificação que podem ser usadas: V CV VC CVC CCV CCCV CVCC * onde V é uma vogal e C é uma consoante. Por exemplo, Pronúncia (5...

125
Como se livrar da pontuação usando o tokenizer NLTK?

Estou começando a usar o NLTK e não entendo como obter uma lista de palavras do texto. Se eu usar nltk.word_tokenize(), recebo uma lista de palavras e pontuação. Eu preciso apenas das palavras. Como posso me livrar da pontuação? Também word_tokenizenão funciona com várias frases: pontos são...

111
Como faço palavra Stemming ou Lemmatization?

Eu tentei PorterStemmer e Snowball, mas ambos não funcionam em todas as palavras, perdendo algumas muito comuns. Minhas palavras de teste são: " gatos administrando comunidades de cactos cactos cactos ", e ambas acertam menos da metade. Veja também: Algoritmo de derivação que produz palavras...

93
Como treinar o Stanford Parser com Genia Corpus?

Tenho alguns problemas para criar um novo modelo para Stanford Parser. Também baixei a última versão de Stanford: http://nlp.stanford.edu/software/lex-parser.shtml E aqui, Genia Corpus em 2 formatos, xml e ptb (Penn Treebank). Standford Parser pode treinar com arquivos ptd; aí baixei Genia...

83
Criação de um novo corpus com NLTK

Achei que muitas vezes a resposta ao meu título é ir e ler a documentação, mas eu li o livro NLTK, mas não dá a resposta. Sou meio novo em Python. Tenho .txtmuitos arquivos e quero poder usar as funções de corpus que o NLTK fornece para o corpus nltk_data. Eu tentei, PlaintextCorpusReadermas...