Eu começaria usando o WGET para arquivar os sites como eles são (em html), depois a conversão para PDF é simples.
Três blogs diferentes que eu li recentemente anunciaram que serão descontinuados e removidos da web. Embora as páginas arquivadas provavelmente fiquem no cache do Google por algumas semanas depois de terem saído e algumas das páginas estarem no Way Back Machine, eu gostaria de arquivar esses sites no meu disco rígido para referência futura.
Qual é a melhor maneira de fazer isso? Existe algum software que transforma um blog (por exemplo, Blogspot) em um PDF cronológico?
Tags web-crawler archiving