Como obter conteúdo descompactado ao usar o wget recursivo?

6

Estou baixando muitas páginas individuais com todo o conteúdo estático (js, css, imgs ...) via wget recursivo . Ele apareceu, o conteúdo servido, que foi compactado (gzip), é armazenado por wget na forma compactada . Mas eu quero forma descomprimida. Não é fácil imaginar escrever outro script que passasse por dirs recursivamente e tentasse descomprimir o que é possível. Então, há alguma maneira de obtê-lo descompactado?

CMD:

wget -E -H -k -K -p https://some.example

even --header = 'Accept-Encoding:' (dizer ao servidor para não usar o gzip) não ajudou.

Obrigado por conselhos:)

    
por user3720773 17.10.2015 / 20:14

1 resposta

1

  1. Use o httrack em vez do wget
  2. Configure o proxy de descompactação. O Squid com algum plug-in de terceiros deve ser capaz de fazer isso. Eu estou mais familiarizado com Java, então eu usei LittleProxy, overrode método getMaximumResponseBufferSizeInBytes () e foi isso. Escrevi sobre o mais recente aqui .

EDIT: Wget 1.19.2 introduz Add gzip Content-Encoding decompression (e funciona)

    
por 23.07.2017 / 11:36