Como extrair marcadores de um arquivo pdf

5

Eu tenho um arquivo PDF. Eu preciso dos marcadores nesse arquivo extraídos para um arquivo de texto ou um excel. Eu também preciso validar os marcadores do arquivo PDF grande. Como eu pude fazer isso?

    
por Shankar 11.07.2014 / 00:16

2 respostas

2

Você pode usar o CLI de jpdftweak para extrair marcadores no formato CSV:

java -jar -Xmx512M jpdftweak.jar "file.pdf" -savebookmarks "bmarks.csv" /dev/null

Após validar e possivelmente modificar os dados do marcador, você pode carregá-lo de volta no arquivo PDF com o seguinte comando:

java -jar -Xmx512M jpdftweak.jar "file.pdf" -loadbookmarks "bmarks.csv" "file_updated.pdf"

O parâmetro -Xmx512M Java é opcional, mas pode ajudar no processamento de arquivos PDF maiores que exigem mais memória.

Você pode querer ler as perguntas e respostas relacionadas bem.

    
por 11.07.2014 / 01:49
2

Você pode usar pdftk para extrair dados (em particular, marcadores) de arquivos PDF.

Exemplo: com o pdftk 2.02,

pdftk file.pdf dump_data_utf8 | grep '^Bookmark'

exibe a lista de marcadores, 4 linhas para cada marcador, sob o formulário:

BookmarkBegin
BookmarkTitle: <title in UTF8>
BookmarkLevel: <number>
BookmarkPageNumber: <number>

em que, por exemplo, o nível 1 corresponde a seções, o nível 2 a subseções e assim por diante. Em vez de dump_data_utf8 , você pode usar dump_data , que fornecerá entidades numéricas HTML / XML para caracteres não ASCII (por exemplo, &#232; para "è").

Observação: sem o grep , você pode obter outros dados interessantes, como os metadados (data de criação, autor, palavras-chave, título, etc.), o número de páginas e as dimensões de cada página. Este utilitário pdftk pode fazer outras coisas no (s) arquivo (s) PDF; veja a sua página de manual para uma descrição completa.

    
por 11.07.2014 / 01:03

Tags