Procurando por uma palavra chave em múltiplos arquivos pdf

2

Eu quero procurar uma palavra-chave específica em vários arquivos PDF usando o comando pdftotext. Normalmente, podemos pesquisar dentro de um único arquivo pdf usando o seguinte comando:

pdftotext file.pdf - | grep keyword

Mas o que teremos que fazer se quisermos pesquisar em vários arquivos pdf?

    
por terdon 10.09.2015 / 16:15

3 respostas

2

Você pode usar um loop de shell:

for file in *pdf; do pdftotext "$file" - | grep keyword; done

Ou, para imprimir o nome do PDF, o padrão foi encontrado em:

for file in *pdf; do 
    echo "-----------$file----------"
    pdftotext "$file" - | grep keyword
done
    
por 10.09.2015 / 16:44
2

Existe uma ferramenta para isso: pdfgrep . Está disponível em todas as distribuições boas.

pdfgrep keyword *.pdf

¹ Aqui eu defino "bom" como "incluindo o pdfgrep". Isso inclui o Debian e o Fedora.

    
por 11.09.2015 / 04:13
1

Aqui está uma maneira de fazer isso:

(pdftotext file1.pdf -; pdftotext file2.pdf -;) | grep keyword

... onde você poderia continuar com arquivos adicionais dentro dos parênteses. Você perderia o controle de qual arquivo tinha o grep "hit", mas você poderia repetir o grep com partições dos arquivos até encontrar o (s) arquivo (s) correspondente (s).

    
por 10.09.2015 / 16:35

Tags