Com o protocolo HTTP, ao contrário do FTP e de alguns outros protocolos, não existe uma lista de todos os arquivos. Se você quiser buscar ( GET
) um arquivo, você deve saber seu URL.
Muitos servidores da Web fornecem um recurso de conveniência (geralmente chamado de índice automático) que, para um URL http://site/directory/
, gera uma página HTML contendo uma lista de links para URLs do formulário http://site/directory/file
para cada file
existente diretório no servidor, fornecendo assim uma espécie de pseudo lista de arquivos que os clientes podem descobrir. No entanto, esse recurso quase nunca é usado para o diretório de nível superior de um site ( http://site/
) porque o autor do site geralmente fornecerá uma página HTML explícita para o URL de nível superior do site. Portanto, se http://www.google.com/1.csv.gz
existir, geralmente você não será capaz de descobrir a menos que você saiba com antecedência que está lá.
Se você está lidando com um servidor web que oferece um índice de arquivos, você pode facilmente inserir essa lista de HTML em texto com algum processamento de texto com awk
ou sed
mas dependerá do formato exato em que o servidor web específico está retornando sua lista HTML ...
curl http://site/ | sed -e [....]