Situação: há um grande arquivo pdf com várias centenas de artigos (pense em livros, especificações técnicas, etc.). Sem acesso à fonte original, como um sumário (ToC) um esboço pode ser adicionado a um arquivo PDF que consiste em texto?
Existe uma pergunta semelhante a esta, criação de um índice em um arquivo PDF do livro digitalizado . Essa é, no entanto, limitada a cópias de livros digitalizadas que não são convertidas com OCR. Esta questão é especificamente sobre PDFs contendo texto (e talvez alguns números).
Exemplos de arquivos PDF:
Esses arquivos têm um ToC no topo do arquivo, que pode ser claramente identificado pelo olho humano. As seções e capítulos dentro desses arquivos também podem ser encontrados olhando o cabeçalho anterior.
Como posso detectar o ToC e adicionar um esboço ao documento? Referências à documentação do formato de arquivo (e outras) também são bem-vindas se elas puderem concluir a tarefa declarada.
(Pense nos arquivos PDF gerados pelo LaTeX com o pacote hyperref
incluído.)
Tags pdf table-of-contents