Como salvar todas as páginas da web vinculadas de um

11

Eu gostaria de salvar esta página da web e todas as páginas às quais ela está vinculada. e esperamos ter a mesma ligação entre as páginas da Web salvas.

Existem algumas maneiras em vez de abrir e salvar cada página vinculada?

    
por Tim 23.04.2011 / 06:28

3 respostas

10

Você pode fazer o que quiser com o utilitário de linha de comando wget . Se você fornecer a opção -r , ele fará o download recursivo das páginas da web. Por exemplo:

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

Isso fará o download dessa página da web e de qualquer coisa que ela vincule. Você também pode fazer com que ele recurse apenas um certo número de níveis. Para isso, basta fornecer -r com um número. Como tal:

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html
    
por 23.04.2011 / 06:54
6

Este tópico já é antigo, mas outros podem ver isso. Obrigado, Wuffers, por me apontar na direção certa, mas, para expandir a resposta de Wuffers: Uma versão moderna do wget tem várias opções úteis para recursão de links e aplicação de links locais para que você possa navegar em uma cópia local de um site. Use a opção -r para recursar, a opção -k para corrigir os links locais, a opção -H para atravessar domínios diferentes do original, a opção -D para limitar quais domínios você atravessa, a opção -l para limitar o profundidade de recursão, e a opção -p para se certificar de que as folhas de sua travessia têm tudo o que precisam para exibir corretamente. Por exemplo, o seguinte fará o download de uma página e de tudo para o qual ela for vinculada imediatamente, tornando-a localmente navegável, a opção -p garante que, se as páginas vinculadas contiverem imagens, também serão baixadas:

wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain

Usando um comando semelhante ao acima, consegui fazer o download de uma parte de uma página da wiki, com links externos, para o meu disco local sem baixar megabytes de dados irrelevantes. Agora, quando abro a página raiz no meu navegador, posso navegar na árvore sem uma conexão com a Internet. A única coisa irritante foi que a página raiz estava enterrada em subdiretórios e eu tive que criar uma página de redirecionamento de nível superior para torná-la conveniente para exibição. Pode demorar um pouco de tentativa e erro para acertar. Leia a página do manual do wget e experimente.

    
por 07.12.2014 / 17:01
4

Você pode usar um rastreador de sites como o httrack , que é gratuito.

Do site;

[httrack] allows you to download a World Wide Web site from the Internet to a local directory, building recursively all directories, getting HTML, images, and other files from the server to your computer. HTTrack arranges the original site's relative link-structure. Simply open a page of the "mirrored" website in your browser, and you can browse the site from link to link, as if you were viewing it online.

    
por 23.04.2011 / 09:33

Tags