Problema ao usar o wget para baixar um site inteiro

Question

Problema ao usar o wget para baixar um site inteiro

#1 resposta do user76204 (5 votos)
#2 resposta do MCR (1 votos)

3

Como dito em wget man page:

para fazer o download de uma única página e de todos os seus requisitos (mesmo que existam em sites separados) e garantir que o lote seja exibido corretamente localmente, esse autor gosta de usar algumas opções além de -p:

wget -E -H -k -K -p link

Eu entendo, se eu quiser baixar o mysite inteiramente, eu tenho que adicionar o argumento -r . Mas o uso das opções -r e -H resulta na transferência de todo o site acessível a partir do link . Alguma idéia?

por Ali 01.08.2012 / 10:45

2 respostas

KeepassX troca y e z Como comparar dois números de versão do pacote

score 5 · Answer 1

Se você quiser usar wget , poderá usar a configuração de espelhamento para criar uma cópia off-line de um website, embora alguns sites possam impedi-lo com as configurações de robots.txt que interrompem o "spidering" automatizado. Eu sempre tive alguns problemas com wget (veja minha outra sugestão abaixo), mas o seguinte comando funciona para muitos sites. No entanto, esteja ciente de que a adição da opção -H permite acessar todos os links que estão em outros sites e salvá-los também. Este comando pode obviamente ser removido se não for necessário.

 wget --wait 1 -x -H -mk http://site.to.mirror/

O comando para wait permite algumas lacunas entre as solicitações wget's para que o site não fique sobrecarregado e a opção de comando -x especifica que a estrutura de diretórios do site deve ser exatamente espelhada em uma pasta em sua pasta base. A opção -m obviamente representa o modo espelho, que permite que wget seja baixado recursivamente pelo site; e a opção -k significa que, após o download, os arquivos referenciados serão aqueles em seu diretório espelho na sua pasta pessoal e não os que estão no próprio site.

Após man wget , talvez a melhor listagem e explicação detalhada dos comandos wget seja aqui .

Se wget for malsucedido e você não puder pegar o quanto quiser, tente o programa de linha de comando httrack ou sua interface da web, webhttrack , que estão disponíveis nos repositórios. Há uma grande quantidade de opções para este programa, mas é melhor para baixar sites inteiros ou partes de sites que wget . Webhttrack te dá um assistente para fazer o download de um site (ele é aberto no navegador) como mostra a captura de tela abaixo.

score 1 · Answer 2

Já faz um tempo que eu usei wget para essa finalidade:

Acredito que tive sucesso com o sinal - m .

wget -mk http://site.com/directory

Isso provavelmente não vai conseguir tudo - mas vai te aproximar.

(Referência): Esta página