Provavelmente, não há solução genérica para o seu problema, mesmo que seja legal se houver.
O núcleo do problema é que o PDF é projetado para especificar como algo deve parecer quando impresso . Ser capaz de pesquisar o PDF por uma fórmula provavelmente não era uma preocupação do prefeito. Então o problema não é o Visualizador ; O problema é que o PDF não contém as informações que você está procurando de forma acessível.
Quando você tem, por exemplo, um alfa (α) em uma fórmula, isso pode ser codificado
- como o caractere Unicode
U+03B1
- como um simples
a
em uma fonte grega (a fonte do Windows Símbolo vem à mente) - ou pode ser apenas um gráfico vetorial apropriado que se parece com um alfa, mas sem ter um caractere ASCII ou Unicode associado a ele.
No primeiro caso, sua solução provavelmente funcionará, mas no segundo caso, a pesquisa será interrompida em todos os "a" do texto. No terceiro caso, a pesquisa não terá nada, pois não há texto a ser pesquisado.
O problema fica mais difícil quando você procura elementos com índices , como $A_B^C
. Isso precisa ser formatado de uma determinada maneira (o B abaixo do A, o C acima dele), mas não existe uma regra fixa na qual o criador do PDF deve inserir os três caracteres em uma caixa de texto; pode até decidir criar caixas de texto separadas , ou decidir que todos os índices superiores de uma fórmula vêm em primeiro lugar, e os índices mais baixos vêm por último.
Como exemplo, a fórmula $A_B^C = D^E_F$
pode ser representada como
C E A D B F
ou
A B C D E F
ou
A C B D F E
ou de qualquer outra forma que o criador de PDF agrade, contanto que as informações posição para cada letra estejam corretas para produzir a fórmula correta. Escusado será dizer que no primeiro e terceiro caso, você terá dificuldade em procurar '$ A_B $' ...
Depois de tudo isso explicando, o que você pode fazer?
- não muito
- tente imprimir o PDF no TIF e, em seguida, faça o OCR usando uma ferramenta que possa lidar com os símbolos matemáticos
- lobby para que autores de artigos publiquem preprints em arxiv.org junto com a fonte LaTex, que você pode pesquisar com mais facilidade
- lobby para que a Adobe adicione uma espécie de "suporte a equações" na próxima versão do PDF para resolver o problema; é claro que isso precisaria ser implementado nas ferramentas usadas para criar e modificar o PDF