O script a seguir imprimirá a primeira linha de cada página do arquivo PDF passada como argumento, seguida por um espaço e o número da linha ... Ele usa ferramentas de Poppler (pacote poppler-utils
no Debian ou Ubuntu).
#!/bin/bash
if="$1"
pages=$(pdfinfo "$if" | sed -nre 's/^Pages: +([0-9]+)$//p')
for ((i=1; i<=$pages; i++)) ;do
printf "%s %d\n" "$(pdftotext -f $i -l $i -layout "$if" - | head -n 1)" $i
done