Buscando uma ferramenta para puxar uma árvore inteira de páginas da Web com algumas opções de seleção [duplicado]

0

Freqüentemente encontro páginas da Web que oferecem páginas de manual ou outras informações acessíveis apenas por meio de um índice composto por links para capítulos ou parágrafos individuais. Geralmente, as páginas de folhas individuais consistem apenas de algumas linhas, portanto, atravessar toda a árvore é extremamente incômodo.

O que estou procurando é uma ferramenta que me permita extrair e combinar todas as páginas referenciadas pelos links de uma página inicial em um único documento html concatenado, de modo que se poderia salvar a página e / ou linearmente percorrer todas as páginas filhas sem ter que clicar e voltar 1000 vezes. Isso também permite imprimir toda a coleção para ter um manual ou pesquisá-lo de uma só vez, etc.

Alguém conhece uma boa ferramenta para conseguir isso? O ideal seria que essa ferramenta oferecesse alguns critérios de exclusão (como ignorar todos os links "de volta" ou o link para ajuda ou home pages encontrados em cada página, etc.).

    
por Michael Moser 18.03.2011 / 11:21

2 respostas

1

Você pode usar wget no modo espelho:

C:\MySites\> wget -m http://mymanuals.com/manuals/foobar

Espelhe todo o site link .

A outra coisa que usei com bastante sucesso é o HTTrack que espelha novamente um site para você, mas com um bom front-end de GUI.

    
por 18.03.2011 / 11:54
0

wget para obter todas as páginas. Você pode usar xhtml2pdf e pdftk para criar um único documento.

    
por 17.03.2011 / 17:03