Eu tenho um arquivo PDF de 300 dpi digitalizado com várias páginas em um sistema Ubuntu 16.04.
Quando eu executo o seguinte comando:
pdfocr -t -l swe -i *.pdf -o newfile.pdf
Isso resulta em um arquivo de leitura de OCR. Cada palavra é pesquisável em qualquer tamanho e formato das fontes.
No entanto, a próxima etapa do processo é converter esse PDF em PDF / A-1b. Isso é feito pelo Ghostscript 9.18 executando o comando:
gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i
O arquivo resultante é validado como um arquivo PDF / A-1b correto, mas a capacidade de pesquisa do arquivo foi alterada muito mal. Parece que o Ghostscript está destruindo o OCR.
Alguém tem uma ideia do que está acontecendo?
Muito obrigado antecipadamente.
/ Paul
Tags pdf ocr ghostscript tesseract-ocr