Exclui lista de arquivos específicos no wget

6

Estou tentando baixar muitas páginas de um site no dial-up e isso pode ser brutalmente lento. Eu quase consegui o comando wget perfeito, mas porque estou baixando páginas do mesmo site wget desperdiça vezes baixando as mesmas imagens padrão para cada página.

Se eu souber o nome das imagens de página padrão, existe alguma maneira de ter wget ignorado e, assim, evitar o download de todas as páginas?

Aqui está um exemplo de um dos comandos wget que meu shell script gera em outro script de shell para fazer o download de todas as páginas:

mkdir candy-canes-on-the-flannel-board-in-preschool
cd candy-canes-on-the-flannel-board-in-preschool
wget -p -nd -A jpg,html -k http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/
wget -c --random-wait --timeout=30 --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/ -O "candy-canes-on-the-flannel-board-in-preschool"
rm Baby-and-Toddler.jpg Childrens-Books.jpg Creative-Art.jpg Felt-Fun.jpg Happy_Rainbow-e1338766526528.jpg index.html Language-and-Literacy.jpg Light-table-Button.jpg Math.jpg Outdoor-Play.jpg outer-jacket1-300x153.jpg preschoolspot-button-small.jpg robots.txt Science-and-Nature.jpg Signature-2.jpg Story-Telling.jpg Tags-on-Preschool.jpg Teaching-Two-and-Three-Year-olds.jpg
cd ../

Agora percebo que o script provavelmente não é o mais prático possível, mas está fazendo o que eu preciso no momento, exceto que você pode ver no comando rm que gostaria apenas de evitar que o wget baixasse os arquivos em primeiro lugar, se possível.

Eu quase esqueci de mencionar, existem dois comandos wget e isso é porque o primeiro faz o download da página como index.html e por alguma razão ele não abre no meu navegador, no entanto, quando abro e olho em vim todo o conteúdo da página está lá, então não sei por que ele não abre. Mas se eu apenas emitir o segundo comando wget como está, essa página, mesmo arquivo com um nome alternativo, se abre bem. Algo que se eu pudesse consertar também ajudaria a agilizar o processo.

    
por nanker 13.10.2012 / 10:24

1 resposta

1

O Wget tem uma opção --reject rejlist que você pode usar. A lista de rejeição é uma lista de padrões de nome de arquivo.

ele também tem uma opção -nc para evitar o download e a sobrescrita arquivos existentes.

    
por 13.10.2012 / 11:57

Tags