Eu uso HTTrack .
It allows you to download a World Wide Web site from the Internet to a local directory, building recursively all directories, getting HTML, images, and other files from the server to your computer
Existe uma maneira portátil de baixar ou armazenar em cache todas as páginas de um site para visualização off-line? Eu tenho um voo de cross country amanhã e gostaria de poder armazenar algumas páginas da Web em cache (especialmente a página de documentação do python ( link ) e a referência pyqt ( link ).
Idealmente, eu gostaria de um add-on do Firefox ou algo assim, mas tudo vai funcionar bem, desde que eu possa executá-lo no Linux.
Eu uso HTTrack .
It allows you to download a World Wide Web site from the Internet to a local directory, building recursively all directories, getting HTML, images, and other files from the server to your computer
Eu uso o wget com essas opções para espelhar um site para uso off-line
wget -cmkE -np http://example.com/a/section/i/like
onde
-m ativa as opções de espelhamento para espelhar um site localmente
-c continua um download anterior no caso de eu já ter baixado algumas páginas
-k converte href absoluto para apontar para locais para visualização offline
-E garante que os arquivos tenham extensão .html após o download.
-np só baixa objetos em / a / section / i / e não armazena em cache todo o site.
Por exemplo, eu queria baixar a documentação do sul, mas não os tickets do sul, etc ...
wget -cmkE -np http://south.aeracode.org/docs/index.html
Eu uso o Windows e executo o wget no cygwin, mas há também uma porta do wget do windows nativo .
Embora, no seu caso, você possa baixar documentos off-line em Python da seção de documentos em Python
Experimente o link um plug-in do Firefox. Eu usei para baixar 250 páginas de PDFs em mais de 20 arquivos separados. É extremamente poderoso. Ele tem uma sintaxe de curinga / consulta que permite que você obtenha cirurgicamente somente os arquivos que você deseja e nenhum dos irrelevantes que você não possui.
Algumas extensões do Firefox que eu conheço:
helps you to save Web pages and easily manage collections. Key features are lightness, speed, accuracy and multi-language support. Major features are:
- Save Web page
- Save snippet of Web page
- Save Web site
- Organize the collection in the same way as Bookmarks
- Full text search and quick filtering search of the collection
- Editing of the collected Web page
- Text/HTML edit feature resembling Opera's Notes
Difference between ScrapBook Plus and ScrapBook:
- faster sorting
- faster import and export
- open the window to manage your collection directly from the sidebar
- simplified the handling of the "Combine Wizard"
- new features for "Capture Multiple URLs" (filter to exclude links, use title of the web site or title of link as new title for the entry in the sidebar, specify waiting time between to download from 0 to 3 seconds, use UTF-8 or ISO-8859-1 as character set)
- new "Capture" window (download needs to be started manually, automated scrolling turned off)
- 6 highlighters in the editor
allows you to view MHT (MHTML) web archive format files, and save complete web pages, including text and graphics, into a single MHT file
Pocket (não é uma extensão; no recurso do Firefox)
lets you save web pages and videos to Pocket in just one click. Pocket strips away clutter and saves the page in a clean, distraction-free view and lets you access them on the go through the Pocket app.
Observe que:
Saving to and accessing your Pocket list on Firefox requires an Internet connection. Offline viewing is possible on other devices with the Pocket app.
Você pode baixar um site inteiro ou parte de um site com o wget.
wget -r http://docs.python.org/
Verifique o manual do wget para outras opções que você queira passar, por exemplo para limitar o uso da largura de banda, controlar a profundidade de recursão, configurar listas de exclusão, etc.
Outra abordagem para navegação offline é usar um proxy de armazenamento em cache. O Wwwoffle é um dos que tem muitos recursos para facilitar a retenção para navegação off-line, como substituições para servidor especificado datas de expiração e um recurso de pré-busca recursiva. (Eu tenho usado o wwwoffle desde meus dias de discagem).