Possível extrair o título e o pagenum de cada página em um arquivo pdf

3

Eu queria saber se existem algumas maneiras de extrair o título e pagenum de cada página em um arquivo pdf? Ou por alguns aplicativos, ou por programação em alguma linguagem de programação com algumas bibliotecas de pdf?

O título de cada página deve ser a primeira linha da página, por exemplo, em slides / arquivos de apresentação.

A saída deve ser um arquivo de texto, com o seguinte formato:

title_of_first_page pagenum_of_first_page
title_of_second_page pagenum_of_second_page
...

Obrigado e cumprimentos!

    
por Tim 09.09.2011 / 21:40

1 resposta

3

O script a seguir imprimirá a primeira linha de cada página do arquivo PDF passada como argumento, seguida por um espaço e o número da linha ... Ele usa ferramentas de Poppler (pacote poppler-utils no Debian ou Ubuntu).

#!/bin/bash
if="$1"
pages=$(pdfinfo "$if" | sed -nre 's/^Pages: +([0-9]+)$//p')
for ((i=1; i<=$pages; i++)) ;do
    printf "%s %d\n" "$(pdftotext -f $i -l $i -layout "$if" - | head -n 1)" $i
done
    
por 10.09.2011 / 05:32