O código varia dependendo dos detalhes, mas a abordagem geral seria:
- Faça login no site (?)
- Faça o download da página com o link para o arquivo usando
wget
oucurl
- Obtenha o link para o pdf da página
- Faça o download do arquivo usando
wget
oucurl
- Extraia o texto do pdf com
pdftotext
do poppler-utils ou similar - Use
grep
ou mais para obter os dados desejados do resultado do texto
A parte mais complicada seria o processo de login, se necessário.
Ao comentar, você não precisa fazer login e ter um URL fixo, o que simplifica isso.
Podemos baixar o PDF e usar o conteúdo de texto diretamente para extrair os dados.
Abaixo está um exemplo para extrair uma linha de um arquivo pdf de amostra. Essa linha contém a palavra ghostview
e um número de versão, que pode ser usado como valor de exemplo.
$ u='http://www.wave.org.au/jupgrade/images/sample.pdf'
$ curl -s "$u" | pdftotext - - | grep 'ghostscript '
• ghostscript ≥ 5.10 (for example from Red Hat Contrib) and ghostview
O próximo passo poderia ser extrair o valor numérico simples.