Estou tentando rastrear um site e quero que o wget siga recursivamente todos os links (que estão dentro do mesmo domínio), mas faça o download da página apenas se o URL dessa página corresponder a um padrão.
Eu tentei algo assim:
wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'
Na verdade, ele só faz o download de páginas com o padrão ' link . *'. No entanto, ele não tenta seguir outros links.
Alguma ideia?
Obrigado antecipadamente!