O Wget tem uma opção --reject rejlist
que você pode usar. A lista de rejeição é uma lista de padrões de nome de arquivo.
ele também tem uma opção -nc
para evitar o download e a sobrescrita arquivos existentes.
Estou tentando baixar muitas páginas de um site no dial-up e isso pode ser brutalmente lento. Eu quase consegui o comando wget
perfeito, mas porque estou baixando páginas do mesmo site wget
desperdiça vezes baixando as mesmas imagens padrão para cada página.
Se eu souber o nome das imagens de página padrão, existe alguma maneira de ter wget
ignorado e, assim, evitar o download de todas as páginas?
Aqui está um exemplo de um dos comandos wget que meu shell script gera em outro script de shell para fazer o download de todas as páginas:
mkdir candy-canes-on-the-flannel-board-in-preschool
cd candy-canes-on-the-flannel-board-in-preschool
wget -p -nd -A jpg,html -k http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/
wget -c --random-wait --timeout=30 --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/ -O "candy-canes-on-the-flannel-board-in-preschool"
rm Baby-and-Toddler.jpg Childrens-Books.jpg Creative-Art.jpg Felt-Fun.jpg Happy_Rainbow-e1338766526528.jpg index.html Language-and-Literacy.jpg Light-table-Button.jpg Math.jpg Outdoor-Play.jpg outer-jacket1-300x153.jpg preschoolspot-button-small.jpg robots.txt Science-and-Nature.jpg Signature-2.jpg Story-Telling.jpg Tags-on-Preschool.jpg Teaching-Two-and-Three-Year-olds.jpg
cd ../
Agora percebo que o script provavelmente não é o mais prático possível, mas está fazendo o que eu preciso no momento, exceto que você pode ver no comando rm
que gostaria apenas de evitar que o wget
baixasse os arquivos em primeiro lugar, se possível.
Eu quase esqueci de mencionar, existem dois comandos wget
e isso é porque o primeiro faz o download da página como index.html
e por alguma razão ele não abre no meu navegador, no entanto, quando abro e olho em vim
todo o conteúdo da página está lá, então não sei por que ele não abre. Mas se eu apenas emitir o segundo comando wget
como está, essa página, mesmo arquivo com um nome alternativo, se abre bem. Algo que se eu pudesse consertar também ajudaria a agilizar o processo.
O Wget tem uma opção --reject rejlist
que você pode usar. A lista de rejeição é uma lista de padrões de nome de arquivo.
ele também tem uma opção -nc
para evitar o download e a sobrescrita arquivos existentes.
Tags wget