wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
Isso é executado no console.
isso vai pegar um site, esperar 3 segundos entre as solicitações, limitar a velocidade de download para não matar o site e se mascarar de uma forma que pareça ser apenas um navegador para que o site não seja cortá-lo usando um mecanismo anti-sanguessuga.
Observe o parâmetro -A
que indica uma lista dos tipos de arquivo que você deseja baixar.
Você também pode usar outra tag, -D domain1.com,domain2.com
, para indicar uma série de domínios que deseja baixar se eles tiverem outro servidor ou o que for para hospedar diferentes tipos de arquivos. Não há uma maneira segura de automatizar isso para todos os casos, se você não obtiver os arquivos.
wget
é comumente pré-instalado no Linux, mas pode ser compilado trivialmente para outros sistemas Unix ou baixado facilmente para o Windows: GNUwin32 WGET
Use isso para o bem e não para o mal.