Posso procurar artigos da Wikipedia na linha de comando?

0

Eu tenho uma lista de autores conhecidos para os quais estou tentando encontrar dados, especificamente o sexo e a nacionalidade deles. Existe uma maneira de consultar isso na linha de comando? Gostou curl something-magic.com 'Frances Burney'e conseguiu recuperar um bom parágrafo que eu possa usar para obter informações sobre gênero e nacionalidade? Ou melhor ainda, algo mais estruturado que eu possa analisar com mais facilidade? Estou no Linux, se isso ajudar.

Jonathan
fonte

Respostas:

1

Se você tiver sorte e seu autor existir no wiki E o nome dele existir apenas uma vez (não ambíguo), você poderá usar esta abordagem:

$ cat mywiki.sh

NAME=$(echo $@ | tr " " "_")

wget -O $NAME.html https://en.wikipedia.org/wiki/$NAME
lynx -dump $NAME.html > $NAME.txt
dataurl=$(awk 'sub(/.*www.\wikidata\.org/, "http://wikidata.org") {print; exit}' $NAME.txt)
lynx -dump -nolist $dataurl > $NAME.dat

Dessa forma, você terá o código html da página, um txt com as mesmas informações, mas sem tags html e um dat com os principais dados do autor (e a página wiki) em linhas de fato. Outro script de filtro pode ser escrito para filtrar esses arquivos e escrever uma tabela csv / html que, quando aberta, é fácil ter uma visão geral do que deve ser pesquisado manualmente.

Gombai Sándor
fonte
Corrigi o problema de abigüidade executando este script no nome do autor e no nome do autor com `(writer)` anexado. Funciona bem!
31416 Jonathan