wget e impedindo que os arquivos sejam baixados em um wget recursivo

1

Eu posso usar um comando como wget -m -A.jpg http://www.mysite.tld/ , mas isso irá fazer o download de cada arquivo, então se não for um jpg, ele irá deletar o arquivo, assim:

'HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘index.html’

index.html                             [           <=>                                                     ]   1.73K  --.-KB/s   in 9.5s   

2015-01-13 16:55:52 (186 B/s) - ‘index.html’ saved [1776]

Removing index.html since it should be rejected.'

Eu gostaria de baixar apenas os arquivos .jpg sem ter que baixar todos os outros arquivos no site e descartá-los depois, já que alguns dos arquivos são muito grandes e o resto dos arquivos são muito numerosos.

    
por lbutlr 14.01.2015 / 01:06

1 resposta

3

Isso faz parte do wget parsing da árvore para links. Ele só faz isso com htm / html (ou seja, não vai baixar todos os arquivos não-jpg, apenas todos os arquivos não-jpg que são um arquivo .htm ou .html). Tem que fazer parte da funcionalidade. Veja, link

Nota: se você puder se conectar a mysite.tld e emitir um comando para listar os arquivos e redirecionar a saída para um arquivo de texto, poderá usar wget -i foo.txt para ler os URLs de download do arquivo em vez de caminho através dos links para obtê-los.

Exemplo: da máquina remota: ls *.jp* > foo.txt da máquina local: wget -i -F foo.txt -B http://www.mysite.tld/foo.jpg (obviamente você terá que mover foo.txt para sua máquina local ou apontar para ela)

    
por 14.01.2015 / 02:19

Tags