Como extrair marcadores de um arquivo pdf

Question

Como extrair marcadores de um arquivo pdf

#1 resposta do (2 votos)
#2 resposta do (2 votos)

5

Eu tenho um arquivo PDF. Eu preciso dos marcadores nesse arquivo extraídos para um arquivo de texto ou um excel. Eu também preciso validar os marcadores do arquivo PDF grande. Como eu pude fazer isso?

pdf

por Shankar 10.07.2014 / 22:16

2 respostas

Tags pdf

Descobrir se o computador foi iniciado via Wake-on-LAN ou botão liga / desliga? usando o script bash para gerar um novo script: é necessário misturar variáveis para serem substituídas e não substituídas

score 2 · Answer 1

Você pode usar o CLI de jpdftweak para extrair marcadores no formato CSV:

java -jar -Xmx512M jpdftweak.jar "file.pdf" -savebookmarks "bmarks.csv" /dev/null

Após validar e possivelmente modificar os dados do marcador, você pode carregá-lo de volta no arquivo PDF com o seguinte comando:

java -jar -Xmx512M jpdftweak.jar "file.pdf" -loadbookmarks "bmarks.csv" "file_updated.pdf"

O parâmetro -Xmx512M Java é opcional, mas pode ajudar no processamento de arquivos PDF maiores que exigem mais memória.

Você pode querer ler as perguntas e respostas relacionadas bem.

score 2 · Answer 2

Você pode usar pdftk para extrair dados (em particular, marcadores) de arquivos PDF.

Exemplo: com o pdftk 2.02,

pdftk file.pdf dump_data_utf8 | grep '^Bookmark'

exibe a lista de marcadores, 4 linhas para cada marcador, sob o formulário:

BookmarkBegin
BookmarkTitle: <title in UTF8>
BookmarkLevel: <number>
BookmarkPageNumber: <number>

em que, por exemplo, o nível 1 corresponde a seções, o nível 2 a subseções e assim por diante. Em vez de dump_data_utf8 , você pode usar dump_data , que fornecerá entidades numéricas HTML / XML para caracteres não ASCII (por exemplo, è para "è").

Observação: sem o grep , você pode obter outros dados interessantes, como os metadados (data de criação, autor, palavras-chave, título, etc.), o número de páginas e as dimensões de cada página. Este utilitário pdftk pode fazer outras coisas no (s) arquivo (s) PDF; veja a sua página de manual para uma descrição completa.