Para obter links para imagens ou arquivos que não usam necessariamente um sufixo de nome de arquivo na URL, eu usaria wget com a opção --accept-regex
. Eu mudei o script que usei para o seu caso específico:
wget -nd -r -l 2 --accept-regex '/attachmentshow' www.domain.tld
Explicação:
-
-nd
no-directories, para evitar a criação de hierarquia de diretórios ao recuperar recursivamente. -
-r
permite a recuperação recursiva, consulte Download recursivo para detalhes. -
-l
especifica o nível máximo de profundidade da recursão, pode querer alterar isso para suas intenções específicas. -
--accept-regex
especifica uma expressão regular para aceitar o URL.
Você também pode usar -A
para especificar quais sufixos de nome de arquivo devem ser aceitos, veja Recursiva Aceitar / Rejeitar Opção para detalhes.
Ao encontrar o robots.txt , você pode usar a opção -e robots.off
para ignorar arquivos robots.txt. Eu aconselho a leitura sobre a opção e as conseqüências primeiro.
Você pode ler mais sobre o wget na página de manual .
Espero que você seja capaz de ajustar o exemplo às suas necessidades e resolver o problema.