Como fazer com que o wget siga apenas um pequeno conjunto de caminhos

1

Tentando fazer com que o wget cuide de um tipo de situação complicada. Basicamente eu quero que apenas permita arquivos / pastas que se encaixem neste sistema:

https://example.com/top/a-file
https://example.com/top/a-file.ext
https://example.com/top/nested/directory/one.ext
https://example.com/top/another/nested/dir/two?maybe=paramsToo

Eu não quero seguir caminhos como estes:

https://example.com/
https://example.com/a-file
https://example.com/a-file.ext
https://example.com/top/
https://example.com/top/directory/
https://example.com/top/directory/one.ext
https://example.com/top/another/deeply/nested/direct/two?maybe=paramsToo

Basicamente, eu só quero lidar com isso:

/top/:file
/top/nested/directory/:file
/top/another/nested/dir/:file

Esses caminhos específicos são permitidos.

Dentro desses caminhos, quero também permitir apenas arquivos específicos (.html, .js, .css ou nenhuma extensão).

O que tentei é isto:

wget --no-parent -r -R .zip, .tar, .gz, .jpg link

Isso funciona parcialmente, exceto nessa situação: quando está avaliando esta página:

https://example.com/top/nested/directory/one.ext

... e essa página liga aqui:

https://example.com/top/a-file

... a opção --no-parent impede que ela seja enviada ao pai. O que eu queria que a opção --no-parent fosse apenas não permitiria ir acima de /top , mas em vez disso parece ser relativo à página de avaliação atual , o que não faz sentido.

Eu sei que -X exclui pastas / caminhos específicos, mas não conheço todos os caminhos possíveis que ele pode encontrar, por isso não sei o que excluir.

Então, imaginando como conseguir isso.

    
por Lance Pollard 02.11.2018 / 02:10

1 resposta

0

Dependendo de como você está redirecionando você para o link , você já tentou usar

    --max-redirect 0
    
por 02.11.2018 / 05:15

Tags