acesso programático ao índice em PDF

Question

acesso programático ao índice em PDF

#1 resposta do (0 votos)

1

Muitos documentos PDF contêm um índice hierárquico. Não estou me referindo ao ToC visível em uma página. O que quero dizer são os metadados usados para gerar os links da barra lateral ao visualizar um PDF com um aplicativo como o de pré-visualização. Como posso extraí-lo? Eu não estou procurando por um aplicativo GUI, já que vou extrair essas informações de muitos documentos com um script.

pdf

por Sean Mackesey 09.03.2015 / 23:19

1 resposta

Tags pdf

Clonagem de SSD sem link mSATA-USB? Excel Converter o tipo de data correto

score 0 · Answer 1

O pacote python pdfminer é capaz de extrair esta informação. Use o script dumppdf.py que vem com o pacote.

dumppdf.py -T /path/to/my/PDF

Produz o XML do sumário.

OBSERVAÇÃO : Credit @krowe para vincular a fonte esta resposta nos comentários.