Perguntas com a marcação «tokenize»

125
Como se livrar da pontuação usando o tokenizer NLTK?

Estou começando a usar o NLTK e não entendo como obter uma lista de palavras do texto. Se eu usar nltk.word_tokenize(), recebo uma lista de palavras e pontuação. Eu preciso apenas das palavras. Como posso me livrar da pontuação? Também word_tokenizenão funciona com várias frases: pontos são...

104
Divisão de string em várias linhas no Oracle

Eu sei que isso foi respondido em algum grau com PHP e MYSQL, mas eu queria saber se alguém poderia me ensinar a abordagem mais simples para dividir uma string (delimitada por vírgulas) em várias linhas no Oracle 10g (de preferência) e 11g. A tabela é a seguinte: Name | Project | Error 108 test...