Eu tenho um conjunto de arquivos PDF, todos contendo texto. No entanto, alguns desses arquivos não foram criados corretamente. o texto selecionável não é pesquisável ou pode ser convertido em texto simples (o arquivo de texto resultante contém caracteres ascii estendidos). Alguns dos arquivos têm ainda mais sorrateiro de uma falha, na medida em que exportar para txt resulta em apenas um determinado texto (por exemplo, cabeçalhos) ser legível. Além disso, como esses são PDFs tecnicamente em 'texto', não é possível executar o OCR diretamente neles (um erro é produzido dizendo "Esta página contém texto renderizável"). Estou tentando descobrir por que isso está acontecendo e como os PDFs danificados pode ser corrigido.
Isso é o que eu gostaria de fazer como um processo em lote para cada arquivo pdf:
Extraia a tag de metadados "PDF Producer"
Converter o PDF em texto
Converta o PDF em um TIFF
Execute o OCR no TIFF resultante e exporte-o para txt
Execute um diff no arquivo de texto TXT > vs. o arquivo de texto PDF- > TIFF- > OCR > TXT
Grave a tag de metadados e um resultado booleano do diff do txt em um arquivo csv
Eu tenho o adobe acrobat X Pro, uma instalação do cygwin e um exiftool do Windows (de aqui ) para trabalhar com e pode acessar outras ferramentas, se necessário.
Alguém tem alguma dica sobre como eu posso resolver esse problema?