Você tem 4 maneiras:
-
wget
uma página,gunzip
e processa novamente a partir do html ... iterar até terminar:wget -m http://example.org/page.html find . -name \*gz -exec gzip -d {} \; find . -name \*html -exec wget -M -F {} \;</code></pre>
Isso será lento, mas deve funcionar.
-
Instale o Privoxy e configure-o para descompactar as páginas solicitadas:
+prevent-compression
Prevent the website from compressing the data. Some websites do that, which is a problem for Privoxy when built without zlib support, since +filter and +gif-deanimate will not work on compressed data. Will slow down connections to those websites, though.
-
O Privoxy ou outro proxy também pode obter as páginas compactadas e entregar a cópia não compactada ao cliente; Google para isso.
-
Meu
wget
não enviará o cabeçalho "Accept-Encoding: gzip" que solicitagzip
content ... Verifique por que o seu faz isso. Talvez você tenha um proxy que está adicionando isso? Você também pode usar Privoxy para remover esse cabeçalho.