Como posso fazer o wget fazer o download apenas de páginas não css imagens etc?

10

Eu quero baixar um site inteiro usando o wget, mas não quero baixar imagens, vídeos, etc.

Eu tentei

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

mas quando eu faço isso ele não baixa arquivos .php, apenas faz o download de arquivos .html estáticos.

Existe uma solução para este problema com o wget?

    
por user1126446 01.02.2012 / 11:24

3 respostas

6

Você explicitamente disse ao wget para aceitar apenas arquivos que têm .html como sufixo.

Supondo que as páginas php têm .php , você pode fazer isso:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Observe que isso fará o download do html renderizado, não da fonte do php. Se a página for suficientemente dinâmica, talvez você não obtenha o resultado esperado esperado.

No entanto, sugiro que outra ferramenta como httrack possa fazer um trabalho melhor - depende exatamente do que você precisa fazer.

    
por 01.02.2012 / 11:59
3

-A pega uma lista, então -A.html, .php deve caber na conta. Você também deve olhar para -R (também é necessária uma lista de rejeições).

    
por 01.02.2012 / 11:59
3

Sim, existe e é bastante simples. Dê uma olhada nesta resposta: link

tl / dr; use --follow-tags=a , que seguirá apenas a tags.

    
por 02.01.2018 / 20:57

Tags