Como pesquisar algum texto em um arquivo PDF

2

Eu gostaria de pesquisar algum texto em um arquivo PDF. Por exemplo, onde a palavra "ir para" no meu PDF? Se você encontrar, qual página está lá?

Eu encontrei esta linha de comando:

find /TEMP -name 'manu.pdf' -exec pdftotext {} - \; | grep "go to"

Isso resulta em alguns elementos.

Eu gostaria de obter o número da página do meu resultado. Como recuperar esse item?

    
por Braiam 30.03.2012 / 09:45

3 respostas

6

pdfgrep parece fazer isso. Na página de manual :

-n, --page-number
Prefix each match with the number of the page where it was found.
    
por 30.03.2012 / 09:50
1

Por padrão, o pdftotext insere caracteres de feed de formulário (0xC) entre as páginas. Você pode contá-los até a aparência da palavra que você procura.

Outra maneira é usar a opção bbox :

 Generate an XHTML file containing bounding box information for each word in the file.

Aqui, cada palavra é incluída em um contêiner page . Então você pode pegar o índice + 1 do page da sua palavra como número de página

    
por 30.03.2012 / 09:56
1

O Recoll pode pesquisar documentos PDF. Ele tem um modo de linha de comando, mas a GUI será mais útil para detalhar onde as correspondências ocorrem e permitirá que você clique em abrir o documento na posição correta.

    
por 17.05.2013 / 08:55