Se você estiver usando uma versão relativamente nova do Wget (Uma lançada há menos de 6 anos), poderá usar as opções --accept-regex
ou --reject-regex
para usar uma expressão regular e rejeitar filtrar as URLs que realmente deseja baixar.
O que estou fazendo no momento é
wget www.example.com -m --warc-file="example.com"
que funciona bem para a maioria dos sites, mas para esse site específico que estou salvando, há mais de mil páginas redundantes, como www.example.com/eventsf[0]=event_calendar5, mantendo o principal site www.example.com/events?
Se você estiver usando uma versão relativamente nova do Wget (Uma lançada há menos de 6 anos), poderá usar as opções --accept-regex
ou --reject-regex
para usar uma expressão regular e rejeitar filtrar as URLs que realmente deseja baixar.