Como desabilitar a compactação gzip com o wget?

2

Existem outras perguntas perguntando como ativar a compactação gzip com o wget, e muitas páginas da web por aí dizendo como fazer isso, mas preciso do contrário. Eu estou tentando localmente espelhar um site, e eu estou apenas começando a home page como um arquivo gzipado, que por sua vez, quebra a recursão, por isso não consigo obter todo o site.

Eu posso gunzip esse arquivo, mas isso ainda não me dá um download recursivo de todo o site de coleta de algodão.

Como faço para desativar ou impedir o gzipping?

EDIT : O comando exato que eu emiti é

wget --random-wait -r -p -e robots=off -U mozilla http://www.example.com --reject png,jpg,jpeg,gif  --progress=dot --wait=7
    
por iconoclast 16.03.2013 / 02:14

2 respostas

5

D'oh! Eu percebi isso. Eu coloquei

header = Accept-Encoding: gzip,deflate

no meu ~/.wgetrc há algum tempo, presumindo que isso afetaria apenas a maneira como os dados eram transmitidos pela rede, nunca achando que o wget seria incapaz de ler os dados compactados.

Em retrospectiva, faz sentido: este é apenas um cabeçalho que wget permite que você use (já que ele permite que você use qualquer cabeçalho que um navegador possa passar, ou qualquer um que você queira compensar) um switch embutido em wget , então por que alguém esperaria que wget manipulasse automaticamente o gzipping? Certamente seria bom se o fizesse, mas não há razão para supor que seria.

    
por 16.03.2013 / 02:33
1

Se a especificação de --header='Accept-Encoding: gzip,deflate' não funcionar, talvez esta:

wget -O- http://example.com/file.gz | gunzip -c

Ou usando curl e sua biblioteca libz que supostamente descompactam automaticamente os arquivos compactados sobre HTTP ( curl -V | grep libz ). Também tem o parâmetro --compress .

    
por 08.05.2015 / 18:22