Eu me deparei com este site que fala sobre isso.
Então, ao baixar o site inteiro, obtendo a versão compactada, qual é o comando certo?
Eu testei este comando, mas não sei se o wget realmente está recebendo a versão compactada em gzip:
wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/
Respostas:
Se você solicitar conteúdo compactado com gzip (usando o cabeçalho accept-encoding: gzip, que está correto), entendo que o wget não pode ler o conteúdo. Então, você terminará com um único arquivo compactado em gzip no disco, para a primeira página que você acessar, mas sem outro conteúdo.
ou seja, você não pode usar o wget para solicitar conteúdo compactado com gzip e para repetir todo o site ao mesmo tempo.
Eu acho que há um patch que permite ao wget suportar essa função, mas não está na versão de distribuição padrão.
Se você incluir o sinalizador -S, poderá saber se o servidor da web está respondendo com o tipo correto de conteúdo. Por exemplo,
A codificação do conteúdo indica claramente gzip, no entanto, para linux.about.com (atualmente),
Está retornando text / html.
Como alguns navegadores mais antigos ainda têm problemas com o conteúdo codificado por gzip, muitos sites o ativam apenas com base na identificação do navegador. Eles geralmente o desativam por padrão e o ativam apenas quando sabem que o navegador pode suportá-lo - e geralmente não incluem o wget nessa lista. Isso significa que você pode descobrir que o wget nunca retorna conteúdo gzip, mesmo que o site pareça fazê-lo no seu navegador.
fonte
Content-Type: text/html; charset=UTF-8
, mas também existeContent-Encoding: gzip
. Não seria compactação transparente se usá-lo forçasse o tipo MIME de tudo a compactar com gzip ... Corristrace -s 128 wget ...
para ver alguns dos bytes lidos do soquete / gravados no disco. Eles não são ASCII. Então, enquanto eu acho que em 2011 seu comando não recebeu uma versão compactada em gzip, em 2015 o mesmo comando recebeu. (wget 1.15).comando simples para obter a página html e compactá-la ou obter qualquer arquivo e compactado.
para mais informações sobre a opção. use o comando man.
fonte