Procura de PDF em Regex?

2

Eu sou engenheiro eletrônico e vejo regularmente esquemas de PDF. Muitas vezes, encontro o cenário em que gostaria de pesquisar o esquema por um componente, por ex. "R1"

O problema é que a pesquisa por "R1" corresponde a todas as R [dezenas] e R [centenas] no esquema também. Por isso, gostaria de poder utilizar um regex na minha pesquisa ou, pelo menos, ter um controlo mais rigoroso da pesquisa (por exemplo, apenas na palavra inteira de pesquisa).

Alguém aqui encontrou uma boa ferramenta de PDF no Ubuntu que suporte esses recursos?

    
por Brian J Hoskins 08.01.2015 / 11:12

3 respostas

1

Instale o pdfgrep :

sudo apt-get install pdfgrep

E, em seguida, use a opção -C e os limites de palavras correspondem:

pdfgrep -C 0 '\<WORD\>' file.pdf

ou use \b...\b em vez de \<...\> .

Veja o seu homem pdfgrep

-C, --context NUM
      Print at most NUM characters of context around each match.

Eu pesquisei e encontrei o JPedal (teste de 30 dias) . Faça o download e abra-o via linha de comando com o seguinte comando:

java -jar jpedal-trial.jar

Agora pressione Ctrl + F , digite a palavra que deseja pesquisar e marque a opção "Localizar somente palavras inteiras" no ícone de seta para baixo () para procurar por palavras inteiras.

    
por αғsнιη 08.01.2015 / 11:44
1

Se você está bem com a criação de um índice de seus documentos, você pode usar o Recoll , que é um mecanismo de pesquisa completo em computadores. . Para capturas de tela e instruções de instalação, por favor, dê uma olhada em esta resposta .

As pesquisas de recolocação são criadas usando um idioma de consulta poweful que suporta e modificadores (por exemplo, proximidade e folga ).

Por exemplo, a consulta "R1"l só produziria resultados de palavras inteiras. Isso ocorre porque o modificador l desativa o stemming. (Neste exemplo específico, você nem precisaria do modificador porque o Recoll não expande sequências de números por padrão).

    
por Glutanimate 10.01.2015 / 15:25
0

Se o problema é apenas limitar a pesquisa a palavras inteiras, isso é bastante fácil. Basta adicionar espaços antes e depois da string de pesquisa, assim: " R1 " . Eu uso esse truque em Evince o tempo todo.

    
por Brian Z 17.03.2015 / 10:31