Baixando massa '.txt' do site

1

Eu estou tentando baixar um monte de (digamos, arquivos .txt) de um site, agora eles não são muito grandes (cerca de 4-10kbs cada), mas existem cerca de 70000 deles.

Tudo o que eu sou depois é o .txt, eu não quero clonar o site como HTTrack etc ...

Existe algum programa lá fora que me ajudaria com este problema? (e poupe-me uma tonelada de tempo!)

Felicidades

xencored
fonte
4
Tente wgetpor exemplo. Você deve incluir mais informações na sua pergunta, como é possível determinar os nomes dos arquivos txt. E qual sistema operacional você está usando.
mpy
Desculpe eu estou usando o Windows 8 atm (esqueci de dizer no acima) Os arquivos .txt também estão em páginas aleatórias dentro do site (também eles têm nomes aleatórios) Eu deveria disse isso também no acima ... desculpe e obrigado por a resposta
xencored
Há wget para o Windows .
Daniel Beck
1
visite wgetman page, gnu.org/software/wget/manual/wget.html e procure acclist.
DᴀʀᴛʜVᴀᴅᴇʀ
Obrigado vou dar uma olhada, eu estava atrás de algo assim para arquivos que não sejam imagens exisoftware.com/news/download-all-images-from-a-website.html
xencored

Respostas:

0

Se você está certo em usar um navegador, você pode usar o Firefox com a extensão DownThemAll . Você precisará navegar até a raiz do diretório e iniciar o DownThemAll - você pode filtrar apenas arquivos .txt na tela de seleção.

Craig Watson
fonte
Eu não tenho certeza se a solução seria boa se eles estivessem espalhados por um site porque o OP declarou que existem 700 arquivos txt. A menos que haja alguma opção com a qual não estou familiarizado, edite sua postagem com um exemplo.
DᴀʀᴛʜVᴀᴅᴇʀ
Isso não me levaria tanto tempo assim? Eu teria que visitar cada página (todos os 50000 deles)?
xencored
1
Minhas desculpas, não percebi que estavam espalhadas por várias páginas. O DTA teria funcionado se os arquivos em questão fossem indexados / listados centralmente.
Craig Watson
0

Use a copiadora gratuita do site HTTrack . Ele permite configurar, por exemplo, profundidade de link, tamanho máximo de arquivo, largura de banda, incluir e excluir links etc. "Ele permite que você baixe um site da Internet para um diretório local, criando recursivamente todos os diretórios, obtendo HTML, imagens e outros arquivos do servidor para o seu computador. O HTTrack organiza a estrutura de links relativa do site original. "

Jan Doggen
fonte
Então, como o OP usaria o HTTrack para baixar apenas os arquivos TXT espalhados pelo site? Ele afirmou claramente que não quer espelhar todo o site.
Karan
Você está certo, ele não pode 'apenas' baixar o arquivo .txt porque ele também precisa do 'intermediário' .html para coletar os links. Mas isso é tão fácil quanto depois "del * .html / s" (e mais alguns) ou um xcopy de todos os arquivos * .txt para outro local. Eu fiz isso muitas vezes para outros tipos de arquivos.
Jan Doggen