PDF: detecta e recorta várias páginas?

6

Eu usei um scanner de alta velocidade na minha universidade para digitalizar algumas seções de um livro em um PDF. O arquivo PDF produzido pelo scanner é simplesmente imagens tiradas pela câmera de documentos armazenada como está. Em outras palavras, temos 30 páginas em PDF, que representam 60 páginas impressas.

A máquina é capaz de digitalizar em larga escala, portanto sua área de digitalização é muito maior do que um livro normal. Isso significa que as imagens também têm muita margem. A tabela é preta e as páginas são obviamente brancas, então parece que o software deve ser capaz de cortar automaticamente.

Estou procurando algum tipo de solução que possa passar pelo PDF e extrair as duas páginas, além de remover a borda ao redor delas e produzir um novo PDF com os resultados fixos . Em outras palavras, quero um PDF de 60 páginas, com as bordas removidas. Eu pretendo passar o PDF processado através do ABBYY FineReader para OCR.

Alguém tem alguma idéia de como isso pode ser feito?

    
por fdmillion 23.09.2013 / 17:42

1 resposta

1

Essas ferramentas gratuitas parecem promissoras para seus propósitos: Scantailor ou Bookscanner .

Se você tiver acesso ao Adobe Acrobat, foi assim que eu fiz. O fluxo de trabalho básico seria combinar as imagens em um PDF, cortar o espaço preto extra de todas as páginas de uma só vez, duplicar cada uma das páginas, recortar as pares e ímpares em dois lotes para cortá-las ao meio e depois OCR.

    
por 26.09.2013 / 17:40

Tags