Conversão de lotes pdf's pdf pesquisáveis

Question

Conversão de lotes pdf's pdf pesquisáveis

#1 resposta do (2 votos)
#2 resposta do (0 votos)
#3 resposta do (0 votos)

3

Estou procurando uma maneira de converter milhares de PDFs em PDFs pesquisáveis. Eu usei um programa chamado "PDF Create Assistant" que veio com o software ecopy da Nuance. No entanto, você não pode selecionar uma pasta, você precisa ir para cada subpasta, selecionar os arquivos a serem convertidos e depois ir para a próxima pasta.

Qual é outra maneira de converter um grande número de PDFs em PDF pesquisáveis?

Não houve sugestões. Certamente, deve haver uma maneira de converter pdf em lote (?).

pdf ocr

por boilers222 06.09.2012 / 20:38

3 respostas

Tags pdf ocr

Como posso remover “Algumas configurações são gerenciadas pelo seu administrador” no Chrome? Quão prático é usar ./ no terminal?

score 2 · Answer 1

Use o arquivo CPYCONVERTER.EXE na pasta BIN como uma linha de comando (os Wildcards são suportados no eCopy Ver.9-Paperworks) Isso é para o 8.5 eCopy Desktop.

Command Line Cpy Converter Version 8.5 (Build 0.116)
 Copyright c 1992 - 2004. All rights reserved.

 Converts CPY to CPY, CPY to TIF or TIF to CPY

Usage:
 cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]

Note:
 Wildcards are not supported.  Full paths must be used for source and destinatio
n

Switches:
--------------------
-?                      : This menu
-Q                      : Turn off logging.
-P                      : Converter pauses after conversion.
-E                      : Converter pauses if there is an error.
-B                      : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O                      : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>"      : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD>           : Password for encrypting and decrypting documents.
--------------------
 * If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
 * If the source document is not encrypted CPY converter will attempt to encrypt
 the destination document using the supplied password.
 * Please note you cannot encrypt/decrypt tif documents.

-<Conversion Type>      : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C  - Convert TIF(Any group) to CPY
* U  - Convert CPY to CPY

Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy

Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3

Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4

score 0 · Answer 2

No linux

Primeiro, você precisa fazer o OCR dos PDF s que ainda não são OCR. Escrevi uma maneira bastante simples de pesquisar todos os PDFs que não podem ser grep ed e OCR.

Percebi que, se um arquivo pdf não tiver nenhuma fonte, geralmente ele não é pesquisável. Então, sabendo disso, podemos usar pdffonts .

As primeiras 2 linhas do pdffonts são o cabeçalho da tabela, então quando um arquivo é pesquisável tem mais de duas saídas de linha, sabendo disso, podemos criar:

gedit check_pdf_searchable.sh

depois cole isto

#!/bin/bash 
#set -vx
if (('pdffonts "$1" | wc -l' < 3 )); then
echo $1
pypdfocr "$1"
fi

torne-o executável

chmod +x check_pdf_searchable.sh

liste todos os PDFs não pesquisáveis no diretório:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

ou no diretório e em seus subdiretórios:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

score 0 · Answer 3

A maneira mais fácil é usar um online ocr api . A API ocr.space inclui suporte para a criação de PDFs pesquisáveis . O serviço tem um nível gratuito de 25.000 conversões por mês.

Você pode automatizar isso com o Powershell, lote ou qualquer outra linguagem de script. Por exemplo, acione a conversão do lote com cURL:

curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image