Rastrear site com o Wget com filtro por padrões de URL

0

Estou tentando rastrear um site e quero que o wget siga recursivamente todos os links (que estão dentro do mesmo domínio), mas faça o download da página apenas se o URL dessa página corresponder a um padrão.

Eu tentei algo assim:

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

Na verdade, ele só faz o download de páginas com o padrão ' link . *'. No entanto, ele não tenta seguir outros links.

Alguma ideia?

Obrigado antecipadamente!

    
por Hei 01.06.2017 / 18:17

0 respostas

Tags