Instalei o python-nltk no Ubuntu Server 12.04 usando o apt-get.
Mas quando tento baixar um corpus, recebo o seguinte erro:
$ python
Python 2.7.3 (default, Feb 27 2014, 19:58:35)
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download('brown')
[nltk_data] Error loading brown: HTTP Error 401: Authorization
[nltk_data] Required
False
Estou faltando alguma configuração ou pacote adicional?
wget https://github.com/nltk/nltk/archive/develop.zip; unzip develop.zip; cd nltk-develop; python setup.py install
. Mas uma questão foi levantada em github.com/nltk/nltk/issues/747Respostas:
O
DEFAULT_URL
usado nadownloader.py
versão empacotada do Ubuntu ainda usa:Mas o servidor de dados atual é:
Obviamente, você pode instalar a partir da fonte ou ... modificar sua versão já instalada para apontar para o novo servidor como este:
Você pode instalar o corpus "marrom":
fonte
É possível corrigir isso sem alterar o código fonte. Crie um downloader personalizado em python:
então você abre uma caixa de diálogo da GUI:
Verifique se você tem acesso de gravação ao diretório de download e faça o download do que precisa.
fonte
Este atualiza o nltk e depois
nltk.download()
funciona novamente.fonte