Como saber se a camada de texto oculta em um arquivo pdf é do OCR ou não? [fechadas]

2

Eu vi alguns arquivos em pdf após o OCR ter um texto muito preciso (tanto em termos de taxa de reconhecimento quanto em termos de alinhamento do texto à imagem).

O que as ferramentas Unix / Linux me ajudam a dizer, se a camada de texto oculta em um arquivo pdf é do OCR ou não?

    
por Tim 07.12.2014 / 21:28

1 resposta

4

As únicas imagens nesse arquivo são as capas frontal e traseira, o resto é texto normal, não oculto atrás de uma imagem digitalizada.

Outra indicação de que este é um texto tipografado e não OCR-ed é que os caracteres especiais de fonte são selecionáveis de maneira correta, apesar de sua fonte e de serem tipificados como, e. superconjunto e também texto em imagens onde o OCR normalmente se confunde.

Além disso, pdfinfo indica que o arquivo é criado por DVIPSONE, ou seja, que é um arquivo (La) TeX - > DVI - > PS e, em seguida, convertido pelo Distiller 4.05 para Windows para o arquivo PDF. É improvável que um arquivo PDF construído a partir de digitalizações tenha DVIPSONE como criador

    
por 07.12.2014 / 21:51

Tags