Download Anexos do Fórum

0

Existe uma maneira de fazer download de anexos de imagem do jpeg do fórum, possivelmente usando o Wget ou o Curl ou alguma outra ferramenta? Gostaria de baixar anexos jpeg de páginas específicas em fóruns. Não estou interessado em baixar todos os anexos do fórum, mas anexos específicos para uma página em um segmento. Eu também não quero baixar anexos um de cada vez. Eu quero ser capaz de ir a uma página em um fórum e baixar todas as imagens anexadas a partir dessa página usando um comando / ação.

Eu posso recuperar URLs de anexos do fórum usando o Firefox Addon Copiar todos os links :

http://forum.sample.com/attachmentshow.php?attachmentid=5332197&d=1391102903
http://forum.sample.com/attachmentshow.php?attachmentid=5332198&d=1391102903
http://forum.sample.com/attachmentshow.php?attachmentid=5332199&d=1391102903
http://forum.sample.com/attachmentshow.php?attachmentid=5683368&d=1407242372

Mas seria mais conveniente se eu pudesse dar ao Wget ou ao Curl (ou alguma outra ferramenta) a url da página do fórum, e o comando recuperaria automaticamente os URLs de anexos e baixaria as imagens.

    
por user8547 16.02.2015 / 14:47

1 resposta

1

Para obter links para imagens ou arquivos que não usam necessariamente um sufixo de nome de arquivo na URL, eu usaria wget com a opção --accept-regex . Eu mudei o script que usei para o seu caso específico:

wget -nd -r -l 2 --accept-regex '/attachmentshow' www.domain.tld

Explicação:

  • -nd no-directories, para evitar a criação de hierarquia de diretórios ao recuperar recursivamente.
  • -r permite a recuperação recursiva, consulte Download recursivo para detalhes.
  • -l especifica o nível máximo de profundidade da recursão, pode querer alterar isso para suas intenções específicas.
  • --accept-regex especifica uma expressão regular para aceitar o URL.

Você também pode usar -A para especificar quais sufixos de nome de arquivo devem ser aceitos, veja Recursiva Aceitar / Rejeitar Opção para detalhes.

Ao encontrar o robots.txt , você pode usar a opção -e robots.off para ignorar arquivos robots.txt. Eu aconselho a leitura sobre a opção e as conseqüências primeiro.

Você pode ler mais sobre o wget na página de manual .

Espero que você seja capaz de ajustar o exemplo às suas necessidades e resolver o problema.

    
por 16.02.2015 / 18:50