CURL para baixar um diretório

Question

CURL para baixar um diretório

#1 resposta do (30 votos)
#2 resposta do (21 votos)
#3 resposta do (12 votos)
#4 resposta do (5 votos)
#5 resposta do (2 votos)
#6 resposta do (0 votos)

31

Estou tentando baixar um diretório completo de sites usando o CURL. O seguinte comando não funciona:

curl -LO http://example.com/

Retorna um erro: curl: Remote file name has no length! .

Mas quando faço isso: curl -LO http://example.com/someFile.type funciona. Alguma idéia de como baixar todos os arquivos no diretório especificado? Obrigado.

curl

por Foo 17.10.2010 / 17:55

6 respostas

Tags curl

Como instalar o libav / avconv no OSX? Impacto do desempenho do Bitlocker no SSD

score 30 · Answer 1

O HTTP não tem realmente uma noção de diretórios. As barras diferentes das três primeiras ( http://example.com/ ) não têm nenhum significado especial, exceto em relação a .. em URLs relativas. Então, a menos que o servidor siga um formato específico, não há como “baixar todos os arquivos no diretório especificado”.

Se você quiser fazer o download de todo o site, sua melhor opção é percorrer todos os links da página principal de forma recursiva. Onda não pode fazer isso, mas você pode. Isso funcionará se o site não for muito dinâmico (em particular, o wget não verá links construídos por código Javascript). Comece com wget -r http://example.com/ e procure em “Recursive Retrieval Options” e “Recursive Accept / Reject Options” no manual do wget para opções mais relevantes (profundidade de recursão, listas de exclusão, etc.).

Se o site tentar bloquear downloads automáticos, talvez seja necessário alterar a sequência do agente do usuário ( -U Mozilla ) e ignorar robots.txt (criar um arquivo vazio example.com/robots.txt e usar a opção -nc para que O wget não tenta baixá-lo do servidor).

score 21 · Answer 2

Sempre funciona para mim, não inclui pai e é recursivo para obter apenas o diretório desejado.

 wget --no-parent -r http://WEBSITE.com/DIRECTORY

score 12 · Answer 3

Nesse caso, curl NÃO é a melhor ferramenta. Você pode usar wget com o argumento -r , assim:

wget -r http://example.com/

Esta é a forma mais básica, e você também pode usar argumentos adicionais. Para mais informações, consulte o manpage ( man wget ).

score 5 · Answer 4

Isso não é possível. Não existe uma maneira padrão, geralmente implementada, para um servidor web retornar o conteúdo de um diretório para você. A maioria dos servidores gera um índice HTML de um diretório, se configurado para isso, mas essa saída não é padrão, nem garantida por qualquer meio. Você pode analisar esse HTML, mas lembre-se de que o formato será alterado de servidor para servidor e nem sempre será ativado.

score 2 · Answer 5

Você pode usar a extensão do Firefox DownThemAll! Ele permitirá que você baixe todos os arquivos em um diretório em um clique. Também é personalizável e você pode especificar quais tipos de arquivo serão baixados. Esta é a maneira mais fácil que encontrei.

score 0 · Answer 6

Você pode encontrar um uso para um site ripper aqui, isso vai baixar tudo e modificar o conteúdo / links internos para uso local. Um bom pode ser encontrado aqui: link