Veja como acabei resolvendo isso usando o conselho de outras pessoas. O NOAA neste caso tem um recurso FTP e HTTP para isso, então o que eu escrevi um script que faz o seguinte:
- ncftpls para obter uma lista de arquivos
- sed para concluir os caminhos de arquivos para uma lista completa de arquivos http
- aria2c para baixá-los rapidamente todos
Exemplo de script:
# generate file list
ncftpls ftp://path/to/ftp/resources > /tmp/remote_files.txt
# append the full path, use http
sed -i -e 's/^/http:\/\/www1\.website\.gov\/pub\/data\//' /tmp/remote_files.txt
# download using aria2c
aria2c -i /tmp/remote_files.txt -d /filestore/2015
Isso é executado muito mais rápido e provavelmente é mais gentil com os servidores da NOAA. Há provavelmente uma maneira inteligente de se livrar dessa etapa intermediária, mas ainda não a encontrei.