Como importar, exportar e editar marcadores de um arquivo pdf?

20

Ouvi dizer que os marcadores de um arquivo pdf são armazenados em texto simples em algum lugar do arquivo. Eu queria saber se é possível importar e exportar marcadores de um arquivo pdf para e de um arquivo de texto, para processamento em lote?

Se sim, existe alguma descrição sobre a sintaxe para editar o arquivo de texto contendo os favoritos de um arquivo pdf?

Eu estava esperando por soluções de software livre para o Ubuntu 10.10 e para o Windows 7.

Obrigado e cumprimentos!

    
por Tim 28.04.2011 / 08:17

8 respostas

19

Existe uma grande variedade de ferramentas que podem extrair marcadores de um PDF para um arquivo de texto simples e vice-versa. Algumas das quais são as seguintes:

Além disso, tenho um script que pode converter entre os formatos de muitas dessas ferramentas: bmconverter.py .

Outra maneira muito interessante é adicionar marcadores a um pdf via pdflatex .

    
por 05.05.2011 / 13:05
9

Você pode usar pdftk para isso. Mais informações: Como exportar e importar marcadores de PDF .

Exportar marcadores PDF na linha de comando da seguinte forma:

pdftk C:\Users\Sid\Desktop\doc.pdf dump_data output C:\Users\Sid\Desktop\doc_data.txt

Importe marcadores de PDF de um arquivo de dados como este:

pdftk C:\Users\Sid\Desktop\doc.pdf update_info C:\Users\Sid\Desktop\doc_data.txt output C:\Users\Sid\Desktop\updated.pdf

pdftk formato de marcador é um pouco tedioso para escrever. Em vez disso, criei meu próprio script usando bash , sed , pdftk e python3 . Confira neste repo: link

Agora eu posso criar um arquivo de texto ( bkmrks.txt ) como este, que leva apenas 5 minutos para escrever até mesmo para um pdf de 1000 páginas.

{
  Title1, 1
  Title2, 2
  {
    Subtitle1, 3
    Subtitle2, 4
    {
      SubSubtitle1, 5
      ...
    }
  }
}

e depois use meu script

./booky.sh pdf_file.pdf bkmrks.txt

isso cria automaticamente um pdf ( pdf_file_new.pdf ) que tem meus favoritos nele.

Isso funcionará em sistemas * nix se, em vez disso, você estiver em uma máquina Windows. Em seguida, instale primeiro python3 e pdftk apenas use o arquivo booky.py no repo para converter bkmrks.txt para pdftk formato compatível

python3 booky.py < bkmrks.txt > output.txt

e, em seguida, use o comando export para gerar um arquivo de dados despejado. Remova os marcadores anteriores desse arquivo e insira o conteúdo de output.txt em vez de usar uma cópia simples. Em seguida, importe esses dados de volta.

    
por 23.02.2016 / 13:37
3

Se você tem uma versão de um documento que tenha marcadores e deseja copiá-los, uma maneira muito mais simples é usar o PDF-XChange Viewer (usei v2.5.211). Abra o PDF que contém os marcadores (o PDF de origem), selecione todos os marcadores no painel de marcadores, copie-os usando Ctrl + C, abra o PDF que não tem os marcadores (o PDF de destino) e cole-os (Ctrl + V) no painel de favoritos do PDF. O PDF-Xchange Viewer preserva as propriedades dos marcadores como estavam no PDF de origem (incluindo qualquer formatação em negrito / itálico no texto do marcador). Se, por algum motivo, algumas das seções do PDF de destino forem mais baixas ou mais altas devido a revisões feitas no documento, você poderá clicar no marcador que precisa de correção, rolar para onde na página deseja abrir o favorito, clique no marcador novamente e clique em "Definir destino". Repita esta última parte conforme necessário para qualquer marcador ofensivo. Salve o PDF de destino quando terminar.

Isso funcionou muito bem para mim, foi bastante intuitivo e eu terminei em alguns minutos. No meu cenário particular, um colega de trabalho produziu um documento muito longo usando o Word para Mac, que não tinha marcadores. Devido à extensão do documento, eu queria que os marcadores correspondessem ao contorno do documento. Eu poderia obter o Word para Windows para salvar o documento como um PDF com marcadores, mas algumas diferenças de formatação entre o Word para Windows e Word para Mac jogaram fora a contagem de página bastante off (em particular, houve diferenças no espaço em branco em torno de rodapés e diferenças no espaçamento entre figuras e a legenda). Eu era capaz de brincar com os cabeçalhos & rodapés e tamanhos de figura para obter a paginação correta no Word para Windows, em seguida, salva em PDF com marcadores. Infelizmente, ainda havia algumas diferenças na formatação de tal forma que eu desejava apenas aplicar os marcadores ao PDF original, e foi quando descobri a solução acima.

    
por 21.09.2015 / 20:52
1

A especificação para arquivos PDF está disponível como um PDF para download gratuito da Adobe - ou pelo menos da última vez que verifiquei. No entanto, a maioria dos arquivos PDF tem a maioria dos dados compactáveis neles compactados. Provavelmente existiu uma versão basicamente em texto plano do PDF uma vez, e se for assim, ele ainda será válido agora, mas, na verdade, obter um arquivo nesse formato pode ser um problema.

Embora eu não tenha feito isso, uma possibilidade muito provável (se você estiver disposto a pagar) é comprar o Acrobat Pro e usar as habilidades de script Javascript embutidas nesse aplicativo. Para você começar ...

link

Este tutorial mostra como criar marcadores automaticamente usando Javascript no Acrobat 7.0 Pro (a versão incluída no Creative Suite CS2). Embora isso seja um pouco antigo, a mesma técnica deve funcionar bem para versões mais recentes.

Os aplicativos da Adobe incluem uma biblioteca para leitura / gravação de arquivos de texto usando Javascript (algo que o JavaScript não tem como padrão), portanto é possível escrever seus próprios scripts de importação / exportação, embora não sejam triviais para torná-los robustos .

    
por 28.04.2011 / 08:46
1

Para exportar favoritos, sigo uma abordagem diferente que requer o uso do Microsoft OneNote:

Eu abro o leitor de PDF (uso a versão gratuita do Foxit) com a estrutura de marcadores visível e, em seguida, no OneNote, peço para tirar um instantâneo e selecione a estrutura de favoritos da Foxit.

Volta para o OneNote, seleciono a opção "Copiar texto da imagem" (no menu que aparece após clicar com o botão direito na imagem do instantâneo) e colá-lo ao lado para corrigir recuo (geralmente com balas).

    
por 06.05.2018 / 12:22
0

Encontrei outra solução bastante "estúpida" para copiar todos os marcadores em um PDF como texto para uso em outro lugar. No Acrobat Pro (para Mac OS), não há como selecionar todos os marcadores e copiá-los / colá-los em um processador de texto. Você pode, no entanto, exportar o PDF inteiro como um arquivo HTML com a opção "uma única página HTML + adicionar um quadro de navegação baseado em marcadores". Em seguida, abra o HTML em um navegador, selecione todo o texto no navigationframe e copie / cole-o em um processador de texto ...

    
por 27.01.2017 / 23:09
0

Para ler todos os marcadores de um PDF em um arquivo de texto, você pode usar este comando com pdftk :

pdftk input.pdf dump_data output output.txt

Eu usei o regex no Notepad ++ para remover as partes extras. O seguinte eu substituí por uma seqüência vazia (em ordem) e, em seguida, acabei com uma lista de marcadores (não se esqueça de substituir usando regex em seu editor de texto):

BookmarkLevel.*
BookmarkPageNumber.*
BookmarkBegin.*
\n\s+\n

Se você quiser remover os números, substitua esta expressão:

BookmarkTitle: A8.\d.\d+\s
    
por 28.04.2017 / 08:44
0

HandyOutline. 1 arrastar, 1 clique, pronto. link . Livre. Recua os submarcadores. Não requer nenhum leitor / editor de PDF. Além disso, edite, exporte todos os detalhes para XML, repagine, importe para PDF. Dev merece doações.

PDF-Xchange Editor (substituiu o PDFViewer) marcadores aleatoriamente duplicados / perdidos exportados para texto

O JPDF exigia Java, exportava o lixo formatado, não era possível limpá-lo para obter apenas os nomes

PDFtk me deu dor de cabeça apenas olhando as instruções

: -)

    
por 10.10.2018 / 22:10

Tags