Como posso transformar um arquivo .TIF de várias páginas em um PDF? [duplicado]

6

Eu tenho um arquivo .TIF GIGANTIC.

Eu fiz a varredura em um livro há alguns dias e eu acidentalmente o digitalizei como um .TIF de várias páginas. Eu realmente quero transformá-lo em um arquivo .PDF mais acessível.

Você tem alguma ideia de como isso pode ser feito?

    
por user170220 05.05.2013 / 08:25

2 respostas

16

Se você está bem apenas com a conversão do formato de arquivo (sem tornar o texto pesquisável (via OCR como apontado por Jonathan Ben-Avraham), esta será uma tarefa perfeita para convert do Pacote ImageMagick (disponível para várias plataformas: Win, Linux, Mac).

Basta usar esse comando para converter seu arquivo TIFF de várias páginas

convert multi-page.tif book.pdf

No entanto, você deve empregar o parâmetro -compress . Se você tiver um TIF colorido de 24 bits, poderá usar LZW (sem perdas) ou JPEG (com perdas), por exemplo,

convert -compress LZW multi-page.tif book.pdf

Se o seu TIFF é preto e branco (por favor, certifique-se, é realmente salvo com apenas 1bit colordepth), eu costumo usar -compress Fax .

Aqui está um exemplo para um arquivo de exemplo de 5 páginas, com algum texto nele - a relação real entre os algoritmos de compressão depende, é claro, do conteúdo do seu arquivo:

24bit JPEG:  1294kB
24bit LZW:   1759kB
1bit  Fax:    135kB

Após essa conversão, você ainda pode executar uma ferramenta de OCR (como o Adobe Acrobat Pro) para tornar o texto pesquisável e copiável.

    
por 05.05.2013 / 10:16
2

TIFF (Tagged Image File Format) é um formato orientado por pixel que é destinado a imagens. Para obter apenas os dados de caracteres de um arquivo TIFF, você teria que usar um programa OCR (Optical Chararacter Recognition). Todos os programas de OCR têm alguma taxa de erro. O formato das páginas (cabeçalho, rodapés, cabeçalhos de seção, etc.) também afeta a capacidade do OCR de adivinhar com precisão os caracteres.

A linguagem e particularmente o sistema de escrita e a fonte também afetam a precisão do OCR. Se o livro tiver uma fonte não-ocidental incomum com ligaduras, a chance de obter saída de OCR de goot é próxima de zero.

Se o livro não for principalmente texto, por exemplo, um livro com muitas capturas de tela ou outras imagens importantes, o OCR não o ajudará.

Existem alguns programas Open Source OCR disponíveis, dependendo do SO que você está usando. O Google Drive tem um serviço de OCR gratuito. WMMV.

Supondo que o livro original que você digitalizou esteja em formato de papel, o TIFF é o melhor que você pode fazer em qualquer evento. Você pode tornar o tamanho do documento mais gerenciável, compactando o arquivo TIFF. Experimente a compactação JPEG com vários níveis de compactação para otimizar o tamanho do documento contra a legibilidade.

    
por 05.05.2013 / 09:46