acesso programático ao índice em PDF

1

Muitos documentos PDF contêm um índice hierárquico. Não estou me referindo ao ToC visível em uma página. O que quero dizer são os metadados usados para gerar os links da barra lateral ao visualizar um PDF com um aplicativo como o de pré-visualização. Como posso extraí-lo? Eu não estou procurando por um aplicativo GUI, já que vou extrair essas informações de muitos documentos com um script.

    
por Sean Mackesey 10.03.2015 / 00:19

1 resposta

0

O pacote python pdfminer é capaz de extrair esta informação. Use o script dumppdf.py que vem com o pacote.

dumppdf.py -T /path/to/my/PDF

Produz o XML do sumário.

OBSERVAÇÃO : Credit @krowe para vincular a fonte esta resposta nos comentários.

    
por 10.03.2015 / 21:01

Tags