Este é um pouco fora de tópico, mas espero que vocês me ajudem. Encontrei um site cheio de artigos de que preciso, mas eles são misturados a muitos arquivos inúteis (principalmente jpgs).
Gostaria de saber se existe uma maneira de encontrar ( não baixar ) todos os PDFs no servidor para fazer uma lista de links. Basicamente, eu gostaria de filtrar tudo o que não é um PDF, a fim de ter uma visão melhor do que fazer o download e do que não.
Respostas:
Visão geral
Ok, aqui está você. Esta é uma solução programática na forma de um script:
Instalação
Você precisará ter
wget
elynx
instalado:Uso
O script obterá uma lista de todos os
.pdf
arquivos no site e o despejará na saída da linha de comando e em um arquivo de texto no diretório de trabalho. Se você comentar owget
comando "opcional", o script continuará fazendo o download de todos os arquivos para um novo diretório.Exemplo
fonte
"$(pwd)/pdflinks.txt"
vez depdflinks.txt
?um simples trecho de javascript pode resolver isso: (NOTA: Presumo que todos os arquivos pdf sejam finalizados com .pdf no link.)
abra o console javascript do navegador, copie o código a seguir e cole-o no js console, pronto!
fonte
lu
função precisava ser:,lu.endsWith (".pdf") == 1
então isso me deu apenas os links em PDF, nem todos os links com "* .pdf *" neles, que é o que recebi com o código publicado. FWIW.