Como obter conteúdo não compactado ao usar o wget recursivo?

6

Estou baixando muitas páginas individuais com todo o conteúdo estático (js, css, imgs ...) via wget recursivo . Ele apareceu, o conteúdo servido, que foi compactado (gzip), é armazenado por wget em formato compactado . Mas eu quero forma descomprimida. Não é fácil imaginar escrever outro script que passe por dirs recursivamente e tente descomprimir o que é possível. Então, há alguma maneira de obtê-lo descompactado?

CMD:

wget -E -H -k -K -p https: //some.exemplo

mesmo --header = 'Accept-Encoding:' (dizendo ao servidor para não usar o gzip) não ajudou.

Obrigado por conselhos :)

user3720773
fonte
1
Eu nunca experimentei nada parecido com o que você está descrevendo. Você pode fornecer um URL de exemplo específico e uma invocação de wget exata que se comporta dessa maneira?
um CVn
o exemplo é https://www.divokekmeny.cz , que fará o arquivo compactado localizado em: '.. \ dscs.innogamescdn.com \ merged \ index.css@39e9148320b8ea5332396a46c9c05ccd'. Quando você tenta descompactá-lo usando o gzip, ele funciona.
user3720773

Respostas:

1
  1. Use o httrack em vez do wget
  2. Configure o proxy de descompactação. O Squid com algum plugin de terceiros deve ser capaz de fazer isso. Eu estou mais familiarizado com Java, então eu usei LittleProxy, overrode método getMaximumResponseBufferSizeInBytes () e foi isso. Eu escrevi sobre o último aqui .

EDIT: Wget 1.19.2 introduz Add gzip Content-Encoding decompression(e funciona)

moneytoo
fonte