wget e curl salvar página da web como ininteligível (criptografada?)

3

Quando faço o download de https://www.wired.com/category/security/ usando wget ou curl , o resultado é ininteligível / criptografado.

É possível (e em caso afirmativo, qual é o caminho correto) para salvar essa página da web (HTML não criptografado / simples) a partir da linha de comando?

    
por JB0x2D1 08.06.2017 / 15:20

1 resposta

5

Resumo executivo:

Parece que o arquivo baixado está compactado e você deve descompactá-lo.

Resposta detalhada

Em exibição:

wget https://www.wired.com/category/security/

Resultado com um arquivo index.html baixado

Execução do comando file no arquivo de download mostra:

$ file index.html 
index.html: gzip compressed data, from Unix

Renomear o arquivo e descompactá-lo para torná-lo documento HTML

$ mv index.html index.html.gz
$ gunzip index.html.gz 
$ file index.html 

index.html: HTML document, UTF-8 Unicode text, with very long lines, with overstriking

Informações extras - por que o wget baixou um arquivo compactado?

Como explicado em Como otimizar seu site com compactação GZIP :

Em vez de baixar um arquivo de texto grande, o servidor / cliente HTTP moderno usa Resposta HTTP Compactada , que reduz o tamanho dos arquivos transferidos.

    
por 08.06.2017 / 15:25

Tags