Analisar um site para PDFs

Question

Analisar um site para PDFs

#1 resposta do (4 votos)
#2 resposta do (2 votos)
#3 resposta do (-1 votos)

2

Eu preciso baixar todos os arquivos PDF presentes em um site. O problema é que eles não estão listados em nenhuma página, então eu preciso de algo (um programa? Um framework?) Para rastrear o site e baixar os arquivos, ou pelo menos obter uma lista dos arquivos. Eu tentei WinHTTrack, mas não consegui fazê-lo funcionar. O DownThemAll for Firefox não rastreia várias páginas ou sites inteiros. Eu sei que há uma solução por aí, já que eu não poderia ter sido a primeira pessoa a ser apresentada com esse problema. O que você recomendaria?

pdf

por user43112 16.07.2010 / 22:39

3 respostas

Tags pdf

Copie e cole rapidamente via Bluetooth Atualizando o Ubuntu de 9.04 para 10.04?

score 4 · Answer 1

O site é indexado pelo Google? Você poderia apenas pesquisar site:www.example.com filetype:pdf e retornaria todos os arquivos PDF indexados naquele site.

Exemplo: site: en.wikipedia.org tipo de arquivo : pdf

Outra maneira de fazer isso seria usando wget, que é uma ferramenta de linha de comando * nix, mas está disponível para Windows. Usando o modo recursivo e especificando salvar apenas arquivos PDF, ele pode percorrer um site e encontrar todos os PDFs.

wget.exe -r -A pdf -np http://www.example.com/ baixará recursivamente todos os arquivos PDF de example.com e não tentará entrar em um diretório pai (somente relevante se você quiser iniciar em um subdiretório específico).

Eu nunca testei usando o WGET com apenas um tipo de arquivo específico antes, mas fiz downloads recursivos antes e ele funcionou bem, então você pode tentar.

score 2 · Answer 2

Posso aconselhá-lo a usar o jsoup, o Java HTML Parser se você estiver familiarizado com Java ou BeautifulSoup se você estiver familiarizado com o Python.

Escreva o método recursivo que segue:

encontre todos os links na página que tenham a tag "a" e o atributo "href". Obtenha o valor e compare o link com o nome do domínio.
extensão chek de link pdf ou não
se esse link tiver a extensão pdf, faça o download ou receba conteúdo se esse link corresponder ao domínio e faça a mesma operação novamente.

Algo parecido com isso.

score -1 · Answer 3

Esta não é a solução mais fácil, mas é a minha favorita.

Escreva sua própria aranha! Faça-o percorrer o site, analisar páginas e procurar por arquivos desejados. Há muitos desafios interessantes que surgem ao escrever uma aranha, e eu achei muito divertido.

Embora isso possa não ser o que archer1742 estava procurando, tenho certeza que alguém (talvez archer1742 também) gostaria dessa solução.