Wget ter problemas apenas salvando os arquivos que eu quero - excluir diretórios parece não funcionar

1

Eu quero baixar todos os gastos do governo acima de £ 500 pelo Departamento de Energia e Mudança Climática. Esses são arquivos .xls e .xlsx, gerados uma vez por mês. Eles são armazenados em locais como este:

link

em que o número após o arquivo é um número exclusivo e o nome do arquivo não tem consistência de nomenclatura. Esses arquivos são vinculados a partir de páginas mensais individuais que têm o formato:

link

que por sua vez links de uma página de índice que é:

link

Este comando funciona:

wget -r --force-html -e robots=off -A xls,xlsx,"" -l 2
https://www.gov.uk/government/collections/departmental-spend-over-500

mas, assim como os arquivos .xls e .xlsx, recebo o diretório completo do site .gov.uk (com uma profundidade de dois links de onde comecei), que baixa ~ 100MB de arquivos de texto / html que não o arquivos .xls que é um pouco excessivo. Então minha pergunta é:

Como eu posso fazer wget apenas fonte dos diretórios acima ou, alternativamente, excluir os óbvios que eu não quero?

Eu tentei os comandos óbvios -I e -X, -D etc, mas sem sorte. NB eu tive que incluir "", bem como arquivos xls na opção -A caso contrário, iria ignorar a vinculação de arquivos html ...

Qualquer conselho recebido com gratidão! Isso está em um mac btw.

    
por baronmax 29.05.2015 / 22:11

1 resposta

1

Ha! Finalmente resolvi isso. No include você tem que incluir o caminho completo para todos os diretórios - mas NÃO o URL:

wget -r -A xls,xlsx,"" -l 2 -I /government/uploads/system/uploads/attachment_data/file/,/government/publications/,/government/collections/departmental-spend-over-500 https://www.gov.uk/government/collections/departmental-spend-over-500

Não é óbvio - bem, não para mim de qualquer maneira ...

(role para a direita na caixa de código para ver tudo)

Editar: na verdade, melhor - eu dividi isso aqui:

wget -r -A xls,xlsx,"" -l 2 
-I /government/uploads/system/uploads/attachment_data/file/,
   /government/publications/,
   /government/collections/departmental-spend-over-500
https://www.gov.uk/government/collections/departmental-spend-over-500

Linha 1: recursiva, inclua xls & xlsx & arquivos que não possuem extensões (neste caso, arquivos html ...) e fazem dois níveis de onde especificado na linha 5

Linhas 2-4: inclua esses caminhos / diretórios na URL superior (ou seja, exclua tudo o mais)

Linha 5: por onde começar

    
por 30.05.2015 / 02:06