Essencialmente, quero rastrear um site inteiro com o Wget, mas preciso que NUNCA baixe outros ativos (por exemplo, imagens, CSS, JS, etc.). Eu só quero os arquivos HTML.
As pesquisas no Google são completamente inúteis.
Aqui está um comando que eu tentei:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Nosso site é híbrido com PHP e CMS. Assim, HTML "arquivos" poderia ser /path/to/page
, /path/to/page/
, /path/to/page.php
, ou /path/to/page.html
.
Inclusive incluí, -R js,css
mas ele ainda baixa os arquivos, ENTÃO os rejeita (desperdício inútil de largura de banda, CPU e carga do servidor!).
wget
web-crawler
Nathan JB
fonte
fonte
Length: 558 [text/css]
nos arquivos que não quero. Se eu pudesse interromper a solicitação se o cabeçalho não retornartext/html
, eu ficaria feliz.Respostas:
O comentário de ernie sobre
--ignore-tags
me conduz pelo caminho certo! Quando olhei para cima--ignore-tags
, emman
, notei--follow-tags
.Ambiente
--follow-tags=a
me permitiu saltarimg
,link
,script
, etc.Provavelmente é muito limitado para algumas pessoas que procuram a mesma resposta, mas na verdade funciona bem no meu caso (tudo bem se eu perder algumas páginas).
Se alguém encontrar uma maneira de permitir a verificação de TODAS as tags, mas impedir a
wget
rejeição de arquivos somente após o download (eles devem ser rejeitados com base no nome do arquivo ou no cabeçalho do tipo de conteúdo antes do download), aceitarei com prazer a resposta!fonte
que tal adicionar as opções:
fonte