Eu usei o wget para baixar arquivos html, onde estão armazenadas as imagens no arquivo?

15

O Firefox estava carregando muito lentamente, por isso decidi usar wgetpara salvar arquivos HTML. Usei o seguinte comando,

wget http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Os arquivos foram salvos na minha pasta pessoal, mas não sei onde as imagens estão armazenadas Anki.

Então, onde estão as imagens armazenadas?

Usuário Registrado
fonte
Este artigo explica as opções e como elas são úteis.
Wilf

Respostas:

34

Prefiro usar --page-requisites( -ppara abreviar) em vez de -raqui, pois ele baixa tudo o que a página precisa exibir, mas não outras, e não preciso pensar em que tipo de arquivo eu quero.

Na verdade, eu geralmente estou usando algo como

wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Isso significa:

  • -E: Acrescente .htmlao nome do arquivo se for um arquivo HTML, mas não terminar em .htmlou semelhante
  • -H: Baixe arquivos de outros hosts também
  • -k: Após o download, converta qualquer link nele, para que aponte para os arquivos baixados
  • -p: Faça o download de qualquer coisa que a página precise para uma visualização offline adequada
Florian Diesch
fonte
Eu vim aqui procurando -He fiquei feliz em aprender -Ee-k também. Obrigado!
Charles Clayton
2

o uso do parâmetro -r deve permitir ao wget fazer o download de toda a pasta, incluindo suas imagens.

wget -r http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter
vegard torvund
fonte
2

Download dos arquivos de imagem separadamente também

Eu acho que esse comando pode ajudar você a começar.

 wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Permite especificar o local para salvar as imagens e quais tipos de arquivos você deseja. Talvez o download das imagens seja mais fácil.

Fonte :

-r permite recuperação recursiva. Consulte Download recursivo para obter mais informações.

-P define o prefixo do diretório em que todos os arquivos e diretórios são salvos.

-A define uma lista de permissões para recuperar apenas certos tipos de arquivo. Strings e padrões são aceitos e ambos podem ser usados ​​em uma lista separada por vírgulas (como visto acima). Consulte Tipos de arquivos para obter mais informações.

Copiando os arquivos de imagem da sua pasta

Percebi que o site usa arquivos de imagem PNG. Você pode apenas copiar os da sua pasta. Isso deve ser executado na pasta em que você armazenou a página da web.

find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;
don.joey
fonte
1

O Wget simplesmente baixa o arquivo HTML da página, não as imagens na página, pois as imagens no arquivo HTML da página são gravadas como URLs. Para fazer o que você deseja, use o -R(recursivo), a -Aopção com os sufixos do arquivo de imagem, a --no-parentopção para não subir e a --levelopção com1 .

Especificamente wget -R -A .jpg,.png,.gif --no-parent --level <url>

Ainda melhor, a maioria dos navegadores possui métodos para salvar páginas para visualização offline .

Ramchandra Apte
fonte