-
Você pode tentar pular arquivos com a opção
--reject
(também aceita curingas):wget --reject index.html
No entanto, você não quer fazer isso. Ao usar o wget com -r
, de alguma forma ele precisa obter uma lista de arquivos dentro do diretório. Assim, o wget solicita o arquivo index.html e analisa o conteúdo na esperança de obter caminhos para outros arquivos nesse diretório. Quando não houver nenhum arquivo index.html na pasta, o servidor da Web geralmente o gerará para wget - esse arquivo conterá a listagem do diretório. A criação deste arquivo de lista deve ser ativada no servidor da Web - caso contrário, o wget receberá uma resposta HTTP 404 e falhará com o download recursivo.
- Esse é o tamanho do arquivo em bytes.
- Isso significa que um arquivo não pode ser removido (provavelmente porque não foi criado em primeiro lugar). Você tem permissão de gravação no diretório em que você faz o download com o wget?
Editar: Depois de testar os downloads do wget com --spider
e --recursive
, reproduzi o erro de desconexão. Parece que o wget usa o tipo de conteúdo de resposta para determinar se o arquivo pode conter links para outros recursos. Se o teste de tipo de conteúdo falhar e o arquivo não for baixado, o wget ainda tentará remover o arquivo temporário, como se ele tivesse sido baixado (Isso ficará claro ao executar wget com --debug
. Ele indicará claramente Removing file due to --spider in recursive_retrieve():
). Eu acho que você encontrou um bug no wget.