Usando o wget para copiar o site com o layout adequado para navegação off-line

4

Esta é a maneira correta de baixar um site com todas as imagens e arquivos CSS para que ele tenha o mesmo layout que o original, mas não sei por que as opções -K --backup-converted e -E --adjust-extension são necessárias.

Depois que o site for atualizado, como atualizo meu backup / cópia baixada do site? Apenas o mesmo que para baixar?

wget -mpHkKEb -t 1 -e robots=off -U 'Mozilla/5.0 (X11; Ubuntu;
Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0' http://www.example.com
  • –m (--mirror) : ative as opções adequadas para espelhamento (download recursivo e timestamps infinitos).

  • -p (--page-requisites) : faça o download de todos os arquivos necessários para exibir adequadamente uma determinada página HTML. Isso inclui coisas como imagens embutidas, sons e folhas de estilo referenciadas.

  • -H (--span-hosts) : ative a abrangência de hosts ao fazer recuperações recursivas.

  • –k (--convert-links) : após o download, converta os links no documento para visualização local.

  • -K (--backup-converted) : ao converter um arquivo, faça backup da versão original com um sufixo .orig. Afeta o comportamento de -N.

  • -E (--adjust-extension) : adicione a extensão adequada ao final do arquivo.

  • -b (--background) : vai para o fundo imediatamente após a inicialização. Se nenhum arquivo de saída for especificado por meio do -o, a saída será redirecionada para wget-log.

  • -e (--execute) : execute o comando (robots = off).

  • -t number (--tries=number) : defina o número de tentativas para número .

  • -U (--user-agent) : identifique-se como string do agente para o servidor HTTP. Alguns servidores podem bani-lo permanentemente para download recursivamente se você enviar o agente do usuário padrão.

por Arturo 09.09.2015 / 09:20

1 resposta

1

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://example.org

Eu usei isso no passado |

de Faça o Espelho Off-line de um Site usando wget :

Explanation of the various flags:

  • --mirror – Makes (among other things) the download recursive.
  • --convert-links – Convert all the links (also to stuff like CSS stylesheets) to relative, so it will be suitable for offline viewing.
  • --adjust-extension – Adds suitable extensions to filenames (html or css) depending on their content-type.
  • --page-requisites – Download things like CSS style-sheets and images required to properly display the page offline.
  • --no-parent – When recursing do not ascend to the parent directory. It useful for restricting the download to only a portion of the site.
    
por 11.11.2015 / 18:55