pesquisa PDFs com codificações de caracteres não padrão

Question

pesquisa PDFs com codificações de caracteres não padrão

#1 resposta do (3 votos)
#2 resposta do (3 votos)
#3 resposta do (2 votos)
#4 resposta do (-1 votos)
#5 resposta do (-1 votos)

19

Alguns arquivos PDF produzem lixo (" mojibake ") quando você copia texto (mesmo que eles sejam renderizados como OK). Isso torna impossível procurá-los (o que você procurar não corresponderá ao lixo).

Alguém tem uma solução fácil?

Exemplos:

Manual TEAC TV EU2816STF (produz problemas acima no Adobe Reader no Windows e no Mac, mas funciona bem em Visualizar em um Mac)
Manual do Leadtek Winfast PVR2 (link para FTP; também tem problemas em Visualizar em um Mac )
Manual da placa sintonizadora de TV Swann (link FTP; também tem problemas em Visualizar em um Mac)
Contrato de licença do Phonedisc (do now-defunct DTMS )
Revisão de fundos trimestrais do Macquarie IFP
Livreto BAN-TACS para pequenas empresas (arquivado versão)
Flyer de Easterfest 2004 (também do arquivo)

Estou usando o Adobe Reader (versão mais recente) para Windows - talvez um visualizador alternativo possa ajudar? Estou procurando uma solução gratuita para o Windows. O código aberto seria ainda melhor.

Editar: os documentos da ferramenta de Extração de texto multivalente têm um bom resumo de por que as coisas podem ir errado, incluindo: (documento citado modificado em janeiro de 2006)

Text may not have a Unicode mapping. PDF Type 3 fonts often do not, and TeX DVI has characters that do not have Unicode equivalents.

The Unicode encoding may be buggy. Open Office maps some characters into the same Unicode, resulting in apparant letter dropping and doubling.

Eu acho que a solução final nesses casos seria o OCR de cada glifo em uma fonte para descobrir qual personagem realmente é. Observe que isso seria mais fácil do que fazer o OCR de um documento digitalizado com ruído porque a forma exata do glifo está disponível (com resolução infinita, já que é uma imagem "vetorial").

pdf search character-encoding

por Hugh Allen 20.03.2013 / 13:55

5 respostas

Tags pdf search character-encoding

Como alterar os atalhos do escritório? Como você desativa a aceleração da roda de rolagem do mouse no Mac OS?

score 3 · Answer 1

Foxit Reader , talvez?

Por que vale a pena, eu só verifiquei o PDF que você vinculou com o Safari 4.0.4 no Mac OS X 10.6.2 e enquanto é alguns Engrish , o PDF é renderizado sem qualquer" lixo "na tela. Talvez você esteja tendo problemas com o Unicode (mais comuns no Windows que no Mac OS)?

score 3 · Answer 2

A maneira mais simples de contornar isso é abrir o arquivo em uma versão recente do Google Chrome com o plug-in de leitura de PDF embutido . Em seguida, você pode usar o recurso de pesquisa do Google Chrome para encontrar texto e copiar e colar funciona corretamente.

score 2 · Answer 3

Para o exemplo do Manual de TV : mesmo problema no Adobe Reader 8.1.2 em um Mac, mas não problemas usando o Mac's Preview para copiar ou pesquisar texto. Além disso, enviá-lo para uma conta do Gmail e, em seguida, escolher "Visualizar" e, em seguida, "HTML simples", revela o texto. Mas o Adobe Reader não gosta disso.

Suas propriedades do documento mostram "Encoding: Custom" para as fontes. Outro documento mostra coisas como "Codificação: Ansi" ou "Roman", e não tem problemas nem em Pré-visualização nem o Adobe Reader em um Mac:

No entanto, os Leadtek e Os exemplos de Swann também causam problemas na Pré-visualização em um Mac e no Gmail, e ambos mostram "Codificação: Identidade-H" . O teste Phonedisc também falha, com "Encoding: Custom".

Confuso e não consistente, mas em algum fórum da Adobe Encontrei a seguinte explicação para ainda outro exemplo que mostra" Encoding: Custom "(ênfase minha) :

After looking inside the PDF it turns out that no usable encoding information is present (neither in the PDF nor in the embedded font data) to derive the meaning of the characters/glyphs that are displayed on the pages in the document.

The fonts actualy are all embedded, but in a way that all encoding information has been removed. This is a typical example of a PDF that is syntactically fully compliant with the PDF spec but where important information about the meaning of the text in it has been thrown away during the process of making the PDF. As far as I can tell it would be very difficult to recover the encoding info.

Isso não explica por que a visualização do Mac (e aparentemente Infix também) pode lidar com alguns dos exemplos quando o Adobe Reader falhar, mesmo com "Encoding: Custom". Talvez o Preview não tenha problemas quando a fonte exata estiver presente no próprio computador? Ou talvez seja apenas adivinhar uma codificação, que funciona para alguns, mas não para todos os documentos?

O que quer que cause isso: se passar pelo Google Docs ou pelo Gmail não funcionar, talvez a solução mais fácil (mas longe de ser fácil) seja salvar como TIFF e fazer OCR . Serviços como o Evernote podem fazê-lo em tempo real (ele faz o OCR nas imagens; duvido que ele faça o OCR em um PDF).

score -1 · Answer 4

Infelizmente não pode ser ajudado. Os documentos PDF na verdade não contêm letras, mas contêm formas de letras. Em outras palavras, em vez de ler uma carta e desenhá-la na tela, o Adobe Reader como qualquer outro aplicativo de leitura de PDF simplesmente desenha os gráficos vetoriais codificado no arquivo.

No entanto, alguns leitores de PDF vêm com um software que permite analisar a forma e recuperar o texto usando o reconhecimento de texto. Funciona como se você tivesse digitalizado um papel de texto impresso e usado software como o ABBYY FineReader para convertê-lo em texto, mas devido à qualidade infinitamente alta dos desenhos vetoriais, os resultados são normalmente muito melhores do que para documentos digitalizados.

Alguns documentos podem ser protegidos de serem convertidos em texto enganando o Adobe Reader. Por exemplo, as letras podem ser desenhadas em várias formas sobrepostas de forma que visualmente elas continuariam parecidas, enquanto o software de reconhecimento de texto não reconheceria o texto. Seu documento é um exemplo de tal proteção.

Uma forma seria imprimir o documento em uma imagem e permitir que o software de reconhecimento de texto o reconheça. Maior resolução para a imagem melhorará a qualidade. Este método, no entanto, não é muito útil.

score -1 · Answer 5

O download do arquivo 1 falhou para mim, arquivo 2 eu poderia abrir com o xpdf, um visualizador de pdf rápido e de código aberto. Eu acho que não pode lidar com formulários, mas para texto puro e grafico eu prefiro por seu tempo de inicialização rápido.