Situação OCR engraçada

Question

Situação OCR engraçada

2

Eu tenho um arquivo PDF de 300 dpi digitalizado com várias páginas em um sistema Ubuntu 16.04.

Quando eu executo o seguinte comando:

pdfocr -t -l swe -i *.pdf -o newfile.pdf

Isso resulta em um arquivo de leitura de OCR. Cada palavra é pesquisável em qualquer tamanho e formato das fontes.

No entanto, a próxima etapa do processo é converter esse PDF em PDF / A-1b. Isso é feito pelo Ghostscript 9.18 executando o comando:

gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i

O arquivo resultante é validado como um arquivo PDF / A-1b correto, mas a capacidade de pesquisa do arquivo foi alterada muito mal. Parece que o Ghostscript está destruindo o OCR.

Alguém tem uma ideia do que está acontecendo?

Muito obrigado antecipadamente.

/ Paul

pdf ocr ghostscript tesseract-ocr

por Paul Bergström 30.06.2016 / 15:10

0 respostas

Tags pdf ocr ghostscript tesseract-ocr

Como desabilitar ou mover "Adicionar ao dicionário" no Chrome? Move todas as imagens cujos nomes aparecem em um arquivo txt para uma nova pasta usando a linha de comando do windows