Nunca tive sucesso em obter curl
ou wget
para fazer download de arquivos que estão sendo veiculados em um servidor Apache em que indexing directories
está ativado. Eu estou pensando que este é o seu problema também. Os diretórios aparecem assim quando você os navega:
NoApache,elesestãohabilitadosassim,porexemplo:
<Directory/var/www/domain.com/pdfs>OptionsIndexesFollowSymLinks</Directory>
Usandooshell,suasopçõessãolimitadasaobteralistadearquivose,emseguida,baixá-losumdecadavezusandoumcomandocomoeste:
%URL="http://www.lamolabs.org/blog/wp-content/uploads/2012/10/"
% curl -s $URL | \
grep "href" | \
grep -v "C=D;O=A" | \
sed "s#^.*href=\"#$URL#" | \
sed 's/">.*$//' | \
xargs wget
Quebrando isso:
- URL="..." - is the URL I want to download files from
- curl -s $URL - get's the contents of the index.html generated by Apache
- grep "href" - get lines that contain only href
- grep -v "C=D;O=A" - eliminate the header bar line generated by Apache
- sed "s#^.*href=\"#$URL#" - replace .*href=" lines with URL
- sed 's/">.*$//' - remove trailing characters >.*$
- xargs wget - download each file using wget
Você pode executar isso como um único comando:
url="http://www.lamolabs.org/blog/wp-content/uploads/2012/10/"; curl -s $url | grep "href" | grep -v "C=D;O=A" | sed "s#^.*href=\"#$url#" | sed 's/">.*$//' | xargs wget
A execução resulta no download dos seguintes arquivos:
% ls -l
total 1652
-rw-rw-r-- 1 saml saml 1351400 Oct 8 23:35 Anatomy-of-the-Linux-file-system.mht
-rw-rw-r-- 1 saml saml 485 Oct 11 00:42 eratosthenes_prime_sieve.pl_.txt
-rw-rw-r-- 1 saml saml 27191 Oct 3 21:42 Selection_005-150x150.png
-rw-rw-r-- 1 saml saml 24202 Oct 3 21:42 Selection_005.png
-rw-rw-r-- 1 saml saml 27141 Oct 3 21:42 Selection_006-150x150.png
-rw-rw-r-- 1 saml saml 24906 Oct 3 21:42 Selection_006.png
-rw-rw-r-- 1 saml saml 25783 Oct 3 22:17 Selection_007-150x150.png
-rw-rw-r-- 1 saml saml 111915 Oct 3 22:17 Selection_007-650x180.png
-rw-rw-r-- 1 saml saml 48109 Oct 4 09:57 Selection_007-e1349359020755.png
-rw-rw-r-- 1 saml saml 29336 Oct 3 22:17 Selection_007.png