O conjunto correto de opções obterá um resultado razoável em um período de tempo razoável. Para chegar a isso, houve algumas tentativas.
wget --recursive --page-requisites --convert-links --timestamping
--domains=www.state.gov --level=2 --accept htm,pdf
--include /m/a/dir/regs/fam,/documents
Esta não pode ser uma solução geral porque a escolha de - aceitar determinados tipos de arquivo é específica do site. A escolha de --incluir determinadas árvores é específica do site. Da mesma forma, a escolha de - nível é específica.
(@ Darius pode postar uma resposta em vez de um comentário, nesse caso eu consideraria selecioná-lo.)