Conversão de lotes pdf's pdf pesquisáveis

3

Estou procurando uma maneira de converter milhares de PDFs em PDFs pesquisáveis. Eu usei um programa chamado "PDF Create Assistant" que veio com o software ecopy da Nuance. No entanto, você não pode selecionar uma pasta, você precisa ir para cada subpasta, selecionar os arquivos a serem convertidos e depois ir para a próxima pasta.

Qual é outra maneira de converter um grande número de PDFs em PDF pesquisáveis?

Não houve sugestões. Certamente, deve haver uma maneira de converter pdf em lote (?).

    
por boilers222 06.09.2012 / 22:38

3 respostas

2

Use o arquivo CPYCONVERTER.EXE na pasta BIN como uma linha de comando (os Wildcards são suportados no eCopy Ver.9-Paperworks) Isso é para o 8.5 eCopy Desktop.

Command Line Cpy Converter Version 8.5 (Build 0.116)
 Copyright c 1992 - 2004. All rights reserved.

 Converts CPY to CPY, CPY to TIF or TIF to CPY

Usage:
 cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]

Note:
 Wildcards are not supported.  Full paths must be used for source and destinatio
n

Switches:
--------------------
-?                      : This menu
-Q                      : Turn off logging.
-P                      : Converter pauses after conversion.
-E                      : Converter pauses if there is an error.
-B                      : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O                      : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>"      : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD>           : Password for encrypting and decrypting documents.
--------------------
 * If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
 * If the source document is not encrypted CPY converter will attempt to encrypt
 the destination document using the supplied password.
 * Please note you cannot encrypt/decrypt tif documents.

-<Conversion Type>      : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C  - Convert TIF(Any group) to CPY
* U  - Convert CPY to CPY

Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy

Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3

Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4
    
por 05.10.2012 / 00:47
0

No linux

Primeiro, você precisa fazer o OCR dos PDF s que ainda não são OCR. Escrevi uma maneira bastante simples de pesquisar todos os PDFs que não podem ser grep ed e OCR.

Percebi que, se um arquivo pdf não tiver nenhuma fonte, geralmente ele não é pesquisável. Então, sabendo disso, podemos usar pdffonts .

As primeiras 2 linhas do pdffonts são o cabeçalho da tabela, então quando um arquivo é pesquisável tem mais de duas saídas de linha, sabendo disso, podemos criar:

gedit check_pdf_searchable.sh

depois cole isto

#!/bin/bash 
#set -vx
if (('pdffonts "$1" | wc -l' < 3 )); then
echo $1
pypdfocr "$1"
fi

torne-o executável

chmod +x check_pdf_searchable.sh

liste todos os PDFs não pesquisáveis no diretório:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

ou no diretório e em seus subdiretórios:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
    
por 08.02.2018 / 09:50
0

A maneira mais fácil é usar um online ocr api . A API ocr.space inclui suporte para a criação de PDFs pesquisáveis . O serviço tem um nível gratuito de 25.000 conversões por mês.

Você pode automatizar isso com o Powershell, lote ou qualquer outra linguagem de script. Por exemplo, acione a conversão do lote com cURL:

curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image
    
por 08.02.2018 / 11:05

Tags