Eu acho o programa WinHTTrack útil para essa finalidade. Há uma combinação de opções que permite fazer o download de uma única página, mas alterar as URLs para um formato absoluto específico, para que você possa pesquisar mais tarde o HTML bruto e ter a garantia de quase todos os links.
- Depois de definir o nome do espelho e avançar para a próxima tela, altere a ação para "Baixar site (s) da Web".
- Coloque o URL da página que contém mais páginas da Web na caixa "Endereços da Web: (URL)".
- Selecione Opções - > Somente especialistas
- Altere os "Rewrite Links: internal / external" para "Absolute URI / Absolute URL" (ou, se você estiver usando apenas a página para capturar URLs, "Absolute URL / Absolute URL").
- Pressione OK, depois Avançar e navegue pelas opções normalmente.
Mais informações sobre o HTTrack podem ser encontradas na tag httrack .