Quando eu quero baixar um monte de arquivos de um site que não facilitam (ou dificultam ativamente), eu gero uma lista de URLs dos arquivos com algo parecido com isto:
lynx -dump -listonly $URL | awk '/\.pdf/ {print $2}' > /tmp/pdflist.txt
Eu normalmente edito o arquivo com vi
para deletar entradas que eu não quero baixar, e finalmente busco todas com wget:
wget --input-file=/tmp/pdflist.txt
Isso funciona bem para tarefas simples e geralmente funciona bem o suficiente para tarefas moderadamente difíceis ... mas para tarefas difíceis envolvendo a análise de links complicados de html e seguintes (e talvez usando cookies), eu escreverei um perl
web -bot usando o módulo libwww-perl
(também conhecido como LWP ).