Como baixar com o wget ou curl?

0

Com wget -c ou curl -O sem download (tempo limite!), mas vejo como uma página normal no meu navegador ,

link

então, como baixá-lo por comandos básicos do sdandard no terminal ?

O tempo para baixar e o conteúdo (um grande arquivo HTML) DEVE ser o mesmo que eu vejo no meu navegador .

PS: esse URL é um caso típico em que a resposta a uma "solicitação de agente não usual" não é a mesma coisa que uma solicitação popular de navegador ... Mas a página é um texto oficial da lei, portanto, precisa de acesso sem barreiras, precisa ser sem atrito: há um RFC (ou recomendação W3C, ou similar) sugerindo ou classificando o que é "acesso sem atrito HTTP"?

    
por Peter Krauss 24.01.2018 / 02:34

1 resposta

1

Eu tentei com muitas alternativas ... O "mínimo extra-cabeçalho" (exigido pelo servidor para oferecer o conteúdo correto) é User-Agent . Com isso está funcionando bem:

curl -O -H "User-Agent: Mozilla/5.0 (Linux)" \
   http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm 

... É um serviço antigo oficial e "HTML ruim", nem a origem HTML nem os cabeçalhos HTTP ( -v option) mostram o enconding (que não é o padrão UTF-8). A solução completa é

curl -H "User-Agent: Mozilla/5.0 (Linux)" \
   http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm \
   | iconv -c  -t UTF-8  -f ISO-8859-1 > L10406compilada.htm
    
por Peter Krauss 24.01.2018 / 09:31