Procure caracteres especiais ou símbolos matemáticos curtos em arquivos pdf

7

Eu tenho o Adobe Reader, o Okular e o Document Viewer como leitores de PDF. Os artigos que leio são frequentemente textos com fórmulas matemáticas, gerados pelo LaTeX.

Mas parece que pesquisar caracteres especiais ou símbolos matemáticos em arquivos PDF com esses visualizadores não funciona perfeitamente. O que eu costumo fazer é selecionar a parte chave (caracteres especiais ou expressões matemáticas) do arquivo, então Ctrl + C , então Ctrl + F , então Ctrl + V , muitas vezes o que o espectador destaca infelizmente não está correto.

Acredito que esse é um recurso importante para o espectador, e há uma necessidade real de procurar não apenas palavras, mas também caracteres especiais em um documento.

Alguém poderia me dizer como você trabalha nisso? Existe algum leitor de PDF melhor ou uma maneira inteligente de pesquisar?

    
por SoftTimur 06.08.2011 / 00:29

2 respostas

4

Provavelmente, não há solução genérica para o seu problema, mesmo que seja legal se houver.

O núcleo do problema é que o PDF é projetado para especificar como algo deve parecer quando impresso . Ser capaz de pesquisar o PDF por uma fórmula provavelmente não era uma preocupação do prefeito. Então o problema não é o Visualizador ; O problema é que o PDF não contém as informações que você está procurando de forma acessível.

Quando você tem, por exemplo, um alfa (α) em uma fórmula, isso pode ser codificado

  • como o caractere Unicode U+03B1
  • como um simples a em uma fonte grega (a fonte do Windows Símbolo vem à mente)
  • ou pode ser apenas um gráfico vetorial apropriado que se parece com um alfa, mas sem ter um caractere ASCII ou Unicode associado a ele.

No primeiro caso, sua solução provavelmente funcionará, mas no segundo caso, a pesquisa será interrompida em todos os "a" do texto. No terceiro caso, a pesquisa não terá nada, pois não há texto a ser pesquisado.

O problema fica mais difícil quando você procura elementos com índices , como $A_B^C . Isso precisa ser formatado de uma determinada maneira (o B abaixo do A, o C acima dele), mas não existe uma regra fixa na qual o criador do PDF deve inserir os três caracteres em uma caixa de texto; pode até decidir criar caixas de texto separadas , ou decidir que todos os índices superiores de uma fórmula vêm em primeiro lugar, e os índices mais baixos vêm por último.

Como exemplo, a fórmula $A_B^C = D^E_F$ pode ser representada como

C E A D B F

ou

A B C D E F

ou

A C B D F E

ou de qualquer outra forma que o criador de PDF agrade, contanto que as informações posição para cada letra estejam corretas para produzir a fórmula correta. Escusado será dizer que no primeiro e terceiro caso, você terá dificuldade em procurar '$ A_B $' ...

Depois de tudo isso explicando, o que você pode fazer?

  • não muito
  • tente imprimir o PDF no TIF e, em seguida, faça o OCR usando uma ferramenta que possa lidar com os símbolos matemáticos
  • lobby para que autores de artigos publiquem preprints em arxiv.org junto com a fonte LaTex, que você pode pesquisar com mais facilidade
  • lobby para que a Adobe adicione uma espécie de "suporte a equações" na próxima versão do PDF para resolver o problema; é claro que isso precisaria ser implementado nas ferramentas usadas para criar e modificar o PDF
por 09.09.2011 / 01:16
2

Parece que o link possui um produto que pode fazer a pesquisa de símbolo visual em um PDF. Você destaca o símbolo ou fórmula de interesse e, em seguida, retorna uma lista de correspondências com hiperlinks. Não, eu não sou uma empresa shill - só tinha a mesma pergunta! Obrigado

    
por 02.04.2013 / 00:16