Por que o OCR-Text é reconhecido com espaços em branco após cada caractere?

1

Estou tentando obter todos os meus documentos digitalizados e jogar fora esses papéis desagradáveis. Para simplificar este processo, comprei recentemente um scanner Brother ADS-2100e. Eu pensei que este scanner poderia criar o OCR-PDF em USB-Stick, mas eu estou errado. Os PDFs no USB não são pesquisáveis. Então, estou tentando adicionar o OCR posteriormente com o pdfsandwich. Isso funcionou, mas meu PDF-Viewer (Evince, Ubuntu 16.04.2) não conseguiu encontrar uma única palavra. Cada palavra tem espaços em branco após cada caractere. Eu escolho o pacote de linguagem tesseract correto, mas o "problema de espaço em branco" não desaparece.

Exemplo: A palavra "Guten" só pode ser encontrada com "G u t e n" e assim por diante.

Eu tentei pesquisar este único arquivo PDF com o PDF-XChange-Viewer no Windows 10 e tudo funciona bem. Não há espaços em branco após cada caractere.

Eu experimentei outros PDF-Viewers e Search-Tools no Ubuntu (recoll, pdfgrep, qpdfview, Okular). Cada ferramenta só me mostra esses espaços em branco. Existe alguma coisa que eu possa fazer?

Na maioria dos casos, eu só preciso de algumas palavras do arquivo pdf para encontrá-lo com o recoll, mas com espaços em branco não é possível encontrar nenhum deles.

Eu não acho que o tesserato é o meu problema. Parece que PDFViewers e Search-Tools tiveram problemas para ler o texto OCR.

Este problema já foi discutido aqui:

link

Eu posso corrigir meu problema com uma pequena solução alternativa:

Eu não crio arquivos PDF em dispositivos USB, mas em arquivos JPEG. Aqueles JPEGS poderiam facilmente ser transformados em arquivos PDF pesquisáveis com:

tesseract -l [LANGUAGE] [INPUT-PICTURE] [OUTPUT-FILE-NAME] pdf

Agora eu tenho meus arquivos PDF pesquisáveis, mas meu primeiro problema ainda não foi resolvido.

    
por Alex 17.03.2017 / 20:03

0 respostas