wget -r
recursivamente obtém um site inteiro e salva tudo localmente na mesma estrutura.
Eu tenho um antigo web site rodando em uma versão antiga do Oracle Portal que precisamos converter em uma estrutura flat-html. Devido a danos ao servidor, não podemos acessar a interface administrativa e, mesmo se pudéssemos, não haveria nenhuma funcionalidade de exportação que funcionasse com versões modernas de software.
Seria suficiente rastrear o site e ter todas as páginas & imagens salvas em uma pasta, mas a estrutura do arquivo precisa ser preservada; ou seja, se uma página estiver localizada no link , ela precisará ser salva em / foo / bar / baz / mypage.html para que os vários bits de Javascript continuem a funcionar.
Nenhum dos rastreadores da Web que encontrei conseguiu fazer isso; todos eles querem renomear as páginas (page01.html, page02.html etc) e quebrar a estrutura de pastas.
Existe algum rastreador que recriará a estrutura do site da forma que aparece para um usuário que acessa o site? Não é necessário refazer nenhum conteúdo das páginas; uma vez re-hospedadas, todas as páginas terão os mesmos nomes originais, então os links continuarão a funcionar.
Experimente a Copiadora de sites do HTTrack: link
(desculpe por não ter mais detalhes, tarde demais / de manhã cedo)
Tags web web-crawler