analisar página da web até n níveis usando o wget

2

Estou tentando extrair URLs de uma página da Web para níveis definidos pelo usuário usando o wget. Eu tentei isso

 wget -r -l --reject=gif -O out.html www.google.com | sed -n 's/.*href="\([^"]*\).*//p'' "

Ele está exibindo apenas o primeiro nível. não está analisando nenhum nível como eu poderia corrigi-lo

    
por maker 20.07.2015 / 19:09

1 resposta

0

Livre-se dos $ 2, a menos que você esteja atribuindo uma variável 2 = 1 ou algo parecido em outro lugar, -l $ 2 fará com que o wget produza wget: --level: Invalid number , o que não será muito bom em sed.

você pode fazer:

wget -l 2 <address>

ou

wget --length=2 <address>

você também pode ter interesse na opção no-parent, que evitará que o wget percorra o diretório (n níveis). Esta é uma opção especialmente útil ao recuperar recursivamente, pois garante que apenas os arquivos abaixo de uma certa hierarquia serão baixados.

wget -np <address>
    
por j0h 06.08.2015 / 22:52