pdfgrep parece fazer isso. Na página de manual :
-n, --page-number
Prefix each match with the number of the page where it was found.
Eu gostaria de pesquisar algum texto em um arquivo PDF. Por exemplo, onde a palavra "ir para" no meu PDF? Se você encontrar, qual página está lá?
Eu encontrei esta linha de comando:
find /TEMP -name 'manu.pdf' -exec pdftotext {} - \; | grep "go to"
Isso resulta em alguns elementos.
Eu gostaria de obter o número da página do meu resultado. Como recuperar esse item?
pdfgrep parece fazer isso. Na página de manual :
-n, --page-number
Prefix each match with the number of the page where it was found.
Por padrão, o pdftotext insere caracteres de feed de formulário (0xC) entre as páginas. Você pode contá-los até a aparência da palavra que você procura.
Outra maneira é usar a opção bbox
:
Generate an XHTML file containing bounding box information for each word in the file.
Aqui, cada palavra é incluída em um contêiner page
. Então você pode pegar o índice + 1 do page
da sua palavra como número de página
O Recoll pode pesquisar documentos PDF. Ele tem um modo de linha de comando, mas a GUI será mais útil para detalhar onde as correspondências ocorrem e permitirá que você clique em abrir o documento na posição correta.