Como eu não faço o download de certos sites com o wget?

1

O que estou fazendo no momento é

wget www.example.com -m --warc-file="example.com"

que funciona bem para a maioria dos sites, mas para esse site específico que estou salvando, há mais de mil páginas redundantes, como www.example.com/eventsf[0]=event_calendar5, mantendo o principal site www.example.com/events?

    
por Coloradohusky 11.10.2018 / 23:11

1 resposta

1

Se você estiver usando uma versão relativamente nova do Wget (Uma lançada há menos de 6 anos), poderá usar as opções --accept-regex ou --reject-regex para usar uma expressão regular e rejeitar filtrar as URLs que realmente deseja baixar.

    
por 12.10.2018 / 15:09

Tags