Eu não ouvi falar de uma única ferramenta que pudesse lhe dizer as coordenadas de algum texto ou link em um arquivo pdf . É até um pouco difícil de imaginar, como isso pode ser feito de forma confiável - eu acho que a ferramenta teria que calcular a geometria de todo o texto no documento (provavelmente uma modificação de alguma biblioteca padrão de renderização de PDF como poppler
seria necessário para isso) ou basear sua estimativa em alguma ferramenta de automação X trabalhando em cima de um visualizador de PDF.
O que você pode fazer sem muito esforço é grep para links em um arquivo pdf não-criptografado e não-comprimido. Aqui estão alguns exemplos de grep
pesquisas que você pode usar:
grep -ao "http://[[:print:]]*" TheFile.pdf
grep -ao "http://[[:alnum:]./]*" TheFile.pdf
grep -ao "http://[^ ']*" TheFile.pdf
grep -ao "URI(http://.*[^\])" TheFile.pdf
O último deve ser o mais próximo de quais links podem ser encontrados durante a leitura do arquivo. Ainda assim, você provavelmente teria que trabalhar um pouco nesses regexes para extrair os links que você realmente quer de um determinado documento.
Se o documento estiver empacotado ou criptografado, você terá que extrair uma versão simples dele primeiro. Use pdftk
ou ferramenta semelhante para fazer isso.