wget - recuperação de arquivos pdf do banco de dados online

0

Estou usando o wget para recuperar arquivos em pdf específicos do link

Eu só quero recuperar os arquivos da Hansard (transcrições do processo da Câmara).

Dois cenários:

  1. Há uma página em que as transcrições de Hansard estão listadas:

link

Clicar em um link de dia / data nesta página recupera uma resposta a uma consulta de banco de dados que exibe links para outros arquivos. Eu só quero recuperar o arquivo indicado por 'Download Current Hansard', que é a transcrição do dia inteiro (não quero recuperar os 'fragmentos').

Eu posso clicar na resposta da consulta, colher os URLs para a transcrição de um dia inteiro, empacotá-los em um arquivo e recuperá-los usando wget -i.

Estou procurando uma maneira de usar o wget para obter apenas as transcrições do dia inteiro.

  1. Apenas alguns anos são listados na página. No entanto, ir ao banco de dados e realizar uma pesquisa avançada no Hansard, depois clicar nos intervalos da década no canto superior esquerdo da tela e, em seguida, em um ano, produz uma listagem de dias diferentes naquele ano. Novamente, o link de nível superior exibido não produz o PDF da transcrição do dia inteiro, mas clicar no título resulta em uma página sendo exibida que mostra um link para a transcrição do dia inteiro.

Eu gostaria de usar o wget para recuperar apenas os pdfs da transcrição do dia inteiro.

Qualquer conselho seria recebido com gratidão. Estou progredindo com o método "semi-manual", mas é lento e exige muito trabalho.

    
por Sekantombi 10.12.2015 / 22:01

1 resposta

0

Você não poderá fazer isso usando apenas wget .

Você precisará criar um script que capture a primeira página com os links de data e analise a página para o URL correto. Em seguida, o script pegaria a página nesse URL e a analisaria para o URL para o PDF.

Isso pode ser feito usando um script python personalizado que usa a biblioteca beautifulsoup .

    
por 10.12.2015 / 23:25