Eu tentei com muitas alternativas ... O "mínimo extra-cabeçalho" (exigido pelo servidor para oferecer o conteúdo correto) é User-Agent
. Com isso está funcionando bem:
curl -O -H "User-Agent: Mozilla/5.0 (Linux)" \
http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm
... É um serviço antigo oficial e "HTML ruim", nem a origem HTML nem os cabeçalhos HTTP ( -v
option) mostram o enconding (que não é o padrão UTF-8). A solução completa é
curl -H "User-Agent: Mozilla/5.0 (Linux)" \
http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm \
| iconv -c -t UTF-8 -f ISO-8859-1 > L10406compilada.htm