Perguntas com a marcação «nltk»

O Natural Language Toolkit é uma biblioteca Python para linguística computacional.

144
Falha ao carregar english.pickle com nltk.data.load

Ao tentar carregar o punkttokenizer ... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... a LookupErrorfoi criado: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle'...

137
n-gramas em python, quatro, cinco, seis gramas?

Estou procurando uma maneira de dividir um texto em n gramas. Normalmente eu faria algo como: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams Estou ciente de que o nltk oferece apenas bigrams e...

125
Como se livrar da pontuação usando o tokenizer NLTK?

Estou começando a usar o NLTK e não entendo como obter uma lista de palavras do texto. Se eu usar nltk.word_tokenize(), recebo uma lista de palavras e pontuação. Eu preciso apenas das palavras. Como posso me livrar da pontuação? Também word_tokenizenão funciona com várias frases: pontos são...

110
Como remover palavras de parada usando nltk ou python

Então, eu tenho um conjunto de dados que gostaria de remover palavras de parada de usar stopwords.words('english') Estou lutando para usar isso no meu código para simplesmente tirar essas palavras. Já tenho uma lista das palavras deste conjunto de dados, a parte com a qual estou lutando é...

101
problema pip instalando quase qualquer biblioteca

Tenho dificuldade em usar o pip para instalar quase tudo. Eu sou novo em programação, então pensei que talvez fosse algo que eu estava fazendo errado e optei por easy_install para obter a maior parte do que eu precisava, o que geralmente funcionou. No entanto, agora estou tentando fazer o download...

83
Criação de um novo corpus com NLTK

Achei que muitas vezes a resposta ao meu título é ir e ler a documentação, mas eu li o livro NLTK, mas não dá a resposta. Sou meio novo em Python. Tenho .txtmuitos arquivos e quero poder usar as funções de corpus que o NLTK fornece para o corpus nltk_data. Eu tentei, PlaintextCorpusReadermas...

8
Obtendo “escape ruim” ao usar o nltk no py3

NLTK versão 3.4.5. Python 3.7.4. OSX versão 10.14.5. A atualização da base de código da 2.7 começou a ser executada agora. Fiz uma nova reinstalação sem cache de todos os pacotes e extensões, em um novo virtualenv. Bastante confuso sobre como isso pode estar acontecendo apenas comigo, não consigo...