Encontre palavras repetidas em pdf

0

Existe uma maneira fácil de encontrar erros de digitação como: "Olá, meu nome é John", "my" e "is" foram escritos duas vezes? Eu encontrei algo similar aqui usando grep , mas aparentemente você tem que inserir todo o texto sendo pesquisado no terminal. Isso pode ser muito limitante ao pesquisar arquivos de texto maiores. Existe uma maneira de fazer isso pesquisando todo um arquivo pdf?

    
por SemtexB 07.09.2016 / 10:21

1 resposta

0

Você pode canalizar a saída da ferramenta pdftotext para o comando grep :

pdftotext <pdffile> - |  grep -Eo '(\b.+) \b'

Para pesquisar uma string predeterminada em arquivos PDF, há também uma ferramenta chamada pdfgrep . No entanto, não permitirá a expressão regular complexa como no exemplo referenciado.

    
por 07.09.2016 / 10:30

Tags