Encontre links e suas posições em um PDF

6

Eu preciso encontrar todos os links em um arquivo PDF, junto com a página em que eles estão e sua posição X / Y. Existe alguma ferramenta ou combinação de ferramentas que eu possa usar para fazer isso?

    
por Tasos Papanikolaou 10.10.2011 / 05:00

1 resposta

1

Eu não ouvi falar de uma única ferramenta que pudesse lhe dizer as coordenadas de algum texto ou link em um arquivo pdf . É até um pouco difícil de imaginar, como isso pode ser feito de forma confiável - eu acho que a ferramenta teria que calcular a geometria de todo o texto no documento (provavelmente uma modificação de alguma biblioteca padrão de renderização de PDF como poppler seria necessário para isso) ou basear sua estimativa em alguma ferramenta de automação X trabalhando em cima de um visualizador de PDF.

O que você pode fazer sem muito esforço é grep para links em um arquivo pdf não-criptografado e não-comprimido. Aqui estão alguns exemplos de grep pesquisas que você pode usar:

grep -ao "http://[[:print:]]*" TheFile.pdf

grep -ao "http://[[:alnum:]./]*" TheFile.pdf

grep -ao "http://[^ ']*" TheFile.pdf

grep -ao "URI(http://.*[^\])" TheFile.pdf

O último deve ser o mais próximo de quais links podem ser encontrados durante a leitura do arquivo. Ainda assim, você provavelmente teria que trabalhar um pouco nesses regexes para extrair os links que você realmente quer de um determinado documento.

Se o documento estiver empacotado ou criptografado, você terá que extrair uma versão simples dele primeiro. Use pdftk ou ferramenta semelhante para fazer isso.

    
por 10.10.2011 / 14:34