Analisar um site para PDFs

2

Eu preciso baixar todos os arquivos PDF presentes em um site. O problema é que eles não estão listados em nenhuma página, então eu preciso de algo (um programa? Um framework?) Para rastrear o site e baixar os arquivos, ou pelo menos obter uma lista dos arquivos. Eu tentei WinHTTrack, mas não consegui fazê-lo funcionar. O DownThemAll for Firefox não rastreia várias páginas ou sites inteiros. Eu sei que há uma solução por aí, já que eu não poderia ter sido a primeira pessoa a ser apresentada com esse problema. O que você recomendaria?

    
por user43112 17.07.2010 / 00:39

3 respostas

4

O site é indexado pelo Google? Você poderia apenas pesquisar site:www.example.com filetype:pdf e retornaria todos os arquivos PDF indexados naquele site.

Exemplo: site: en.wikipedia.org tipo de arquivo : pdf

Outra maneira de fazer isso seria usando wget, que é uma ferramenta de linha de comando * nix, mas está disponível para Windows. Usando o modo recursivo e especificando salvar apenas arquivos PDF, ele pode percorrer um site e encontrar todos os PDFs.

wget.exe -r -A pdf -np http://www.example.com/ baixará recursivamente todos os arquivos PDF de example.com e não tentará entrar em um diretório pai (somente relevante se você quiser iniciar em um subdiretório específico).

Eu nunca testei usando o WGET com apenas um tipo de arquivo específico antes, mas fiz downloads recursivos antes e ele funcionou bem, então você pode tentar.

    
por 17.07.2010 / 02:37
2

Posso aconselhá-lo a usar o jsoup, o Java HTML Parser se você estiver familiarizado com Java ou BeautifulSoup se você estiver familiarizado com o Python.

Escreva o método recursivo que segue:

  1. encontre todos os links na página que tenham a tag "a" e o atributo "href". Obtenha o valor e compare o link com o nome do domínio.
  2. extensão chek de link pdf ou não
  3. se esse link tiver a extensão pdf, faça o download ou receba conteúdo se esse link corresponder ao domínio e faça a mesma operação novamente.

Algo parecido com isso.

    
por 04.05.2012 / 14:53
-1

Esta não é a solução mais fácil, mas é a minha favorita.

Escreva sua própria aranha! Faça-o percorrer o site, analisar páginas e procurar por arquivos desejados. Há muitos desafios interessantes que surgem ao escrever uma aranha, e eu achei muito divertido.

Embora isso possa não ser o que archer1742 estava procurando, tenho certeza que alguém (talvez archer1742 também) gostaria dessa solução.

    
por 17.07.2010 / 01:21

Tags