Como posso fazer o wget fazer o download apenas de páginas não css imagens etc?

Question

Como posso fazer o wget fazer o download apenas de páginas não css imagens etc?

#1 resposta do (6 votos)
#2 resposta do (3 votos)
#3 resposta do (3 votos)

10

Eu quero baixar um site inteiro usando o wget, mas não quero baixar imagens, vídeos, etc.

Eu tentei

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

mas quando eu faço isso ele não baixa arquivos .php, apenas faz o download de arquivos .html estáticos.

Existe uma solução para este problema com o wget?

wget linux

por user1126446 01.02.2012 / 10:24

3 respostas

Tags wget linux

Como determino o ARN da minha zona hospedada pelo route53 da Amazon? O mysqldump retorna um status?

score 6 · Answer 1

Você explicitamente disse ao wget para aceitar apenas arquivos que têm .html como sufixo.

Supondo que as páginas php têm .php , você pode fazer isso:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Observe que isso fará o download do html renderizado, não da fonte do php. Se a página for suficientemente dinâmica, talvez você não obtenha o resultado esperado esperado.

No entanto, sugiro que outra ferramenta como httrack possa fazer um trabalho melhor - depende exatamente do que você precisa fazer.

score 3 · Answer 2

-A pega uma lista, então -A.html, .php deve caber na conta. Você também deve olhar para -R (também é necessária uma lista de rejeições).

score 3 · Answer 3

Sim, existe e é bastante simples. Dê uma olhada nesta resposta: link

tl / dr; use --follow-tags=a , que seguirá apenas a tags.