clone de wget não é exato

1

Eu estou tentando obter uma réplica exata de uma página. Eu uso:

wget -E -H -k -K -p http://example.com

Tudo funciona bem, exceto:

  1. Se no meu estilo houver uma importação de outro arquivo CSS, ele não será baixado.
  2. Se o JavaScript colocar as imagens em qualquer lugar, elas não serão baixadas (coloque uma classe em uma tag de âncora e, em seguida, no meu arquivo script.js, coloque a imagem no jQuery.

Alguma idéia de como conseguir um desses para trabalhar?

3498DB
fonte
Veja Aqui . O Wget não pode interpretar JavaScript ou CSS. Você precisa de um navegador compatível com JavaScript. Se for um site único, você pode tentar extrair links com regexp.
Banthar
@banthar ... Eu gostaria de baixar os arquivos que estão no javascript ou no css. Você tem algum lugar que você possa me enviar para referência sobre como descobrir essa expressão regular?

Respostas:

0

Eu uso pavuk para espelhamento e funciona muito bem - o espelho resultante é visível no navegador e também analisa parcialmente o javascript (mas é claro que não completamente):

/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' -norobots -dont_limit_inlines -dont_leave_site http://www.example.com/ >OUT 2>ERR &

Você também pode usar o -skip_url_rpattern para evitar que alguns scripts dinâmicos inúteis sejam espelhados, por exemplo:

-skip_url_rpattern 'index.php\?Addcomm=' -skip_url_rpattern 'index.php\?cal=1'
Tomas
fonte