Problemas com o wget AWS ubuntu apache2

1

Estou tentando usar o wget para fazer o download do meu servidor AWB Ubuntu com o Apache2. Eu tentei várias opções diferentes, mas todas elas resultam em um arquivo pelo nome do diretório ou um arquivo index.html.

Existem 3 fotos e um vídeo em formato ogg no diretório.

Este é o wget que estou usando:

wget -N -np http://domainorIP/dir/dir2/dirtodownload/

  • -N é apenas baixar arquivos mais recentes
  • -np não ascendem ao diretório pai
por mrhobbeys 31.12.2012 / 21:02

3 respostas

1

Por padrão, wget baixa apenas o URL que você fornece, não os recursos vinculados de uma página HTML. Para seguir esses links, você precisa da opção -r (ou --recursive ).

Há também a opção --page-requisites que faz o download de todos os recursos necessários para exibir a página que você fornece, como imagens em linha e folhas de estilo.

Também existem opções "agrupadas", como --mirror , que incluem -r , além de várias outras opções úteis para o espelhamento.

A página man é enorme porque wget tem muitos recursos. A seção sobre Recursive Retrieval Options valeria muito a pena ler.

    
por 31.12.2012 / 23:13
0

Baixe um navegador CLI e baixe os arquivos desejados, você pode usar o ELinks ou o W3M

apt-get install elinks w3m
    
por 31.12.2012 / 22:35
0

Nunca tive sucesso em obter curl ou wget para fazer download de arquivos que estão sendo veiculados em um servidor Apache em que indexing directories está ativado. Eu estou pensando que este é o seu problema também. Os diretórios aparecem assim quando você os navega:

NoApache,elesestãohabilitadosassim,porexemplo:

<Directory/var/www/domain.com/pdfs>OptionsIndexesFollowSymLinks</Directory>

Usandooshell,suasopçõessãolimitadasaobteralistadearquivose,emseguida,baixá-losumdecadavezusandoumcomandocomoeste:

%URL="http://www.lamolabs.org/blog/wp-content/uploads/2012/10/"
% curl -s $URL | \
     grep "href" | \
     grep -v "C=D;O=A" | \
     sed "s#^.*href=\"#$URL#" | \
     sed 's/">.*$//' | \
     xargs wget

Quebrando isso:

 - URL="..."                - is the URL I want to download files from
 - curl -s $URL             - get's the contents of the index.html generated by Apache
 - grep "href"              - get lines that contain only href
 - grep -v "C=D;O=A"        - eliminate the header bar line generated by Apache
 - sed "s#^.*href=\"#$URL#" - replace .*href=" lines with URL
 - sed 's/">.*$//'          - remove trailing characters >.*$
 - xargs wget               - download each file using wget

Você pode executar isso como um único comando:

url="http://www.lamolabs.org/blog/wp-content/uploads/2012/10/"; curl -s $url | grep "href" | grep -v "C=D;O=A" | sed "s#^.*href=\"#$url#" | sed 's/">.*$//' | xargs wget 

A execução resulta no download dos seguintes arquivos:

% ls -l
total 1652
-rw-rw-r-- 1 saml saml 1351400 Oct  8 23:35 Anatomy-of-the-Linux-file-system.mht
-rw-rw-r-- 1 saml saml     485 Oct 11 00:42 eratosthenes_prime_sieve.pl_.txt
-rw-rw-r-- 1 saml saml   27191 Oct  3 21:42 Selection_005-150x150.png
-rw-rw-r-- 1 saml saml   24202 Oct  3 21:42 Selection_005.png
-rw-rw-r-- 1 saml saml   27141 Oct  3 21:42 Selection_006-150x150.png
-rw-rw-r-- 1 saml saml   24906 Oct  3 21:42 Selection_006.png
-rw-rw-r-- 1 saml saml   25783 Oct  3 22:17 Selection_007-150x150.png
-rw-rw-r-- 1 saml saml  111915 Oct  3 22:17 Selection_007-650x180.png
-rw-rw-r-- 1 saml saml   48109 Oct  4 09:57 Selection_007-e1349359020755.png
-rw-rw-r-- 1 saml saml   29336 Oct  3 22:17 Selection_007.png
    
por 01.01.2013 / 00:21