Pode wget * imprimir * os URLs de dependências de páginas?

1

Como possível solução alternativa para outro problema , é possível criar wget imprimir os URLs que encontrar no documento de destino que considera como requisitos de página? Prefiro não criar código de raspar para a tarefa simples em que estou trabalhando.

    
por l0b0 01.06.2017 / 12:20

1 resposta

2

Você pode fazer algo como:

wget -nv -p -nd --delete-after <url>

Que produzirá algo como:

2017-06-01 21:37:41 URL:<url> [19101] -> "index.html.3" [1]
2017-06-01 21:37:42 URL:<url>robots.txt [24/24] -> "robots.txt" [1]
2017-06-01 21:37:42 URL:<url>rc/1502.css [19106/19106] -> "1502.css" [1]
2017-06-01 21:37:42 URL:<url>favicon.ico [5390/5390] -> "favicon.ico" [1]
2017-06-01 21:37:42 URL:<url>avatar/nopic.jpg [893/893] -> "nopic.jpg

Isso pode ser rapidamente convertido ou filtrado para algo que possa atender às suas necessidades.

    
por 01.06.2017 / 13:42

Tags