TIFF para TEXT ou arquivos TIFF de índice com base no conteúdo de texto

1

Eu tenho alguns milhares de arquivos Tiff, cada um deles é um documento de texto de várias páginas. Eu gostaria de poder pesquisar o conteúdo desses arquivos e organizá-los / indexá-los com base em determinadas informações, como Nome, Cidade, Condado, Estado, Rua, CEP, etc. O objetivo é encontrar os arquivos relevantes com base nos termos de pesquisa. Por exemplo, se eu fosse pesquisar "Doyle, Bob" E "Condado de Orange" todos os arquivos contendo esses termos seriam recuperados. Eu tenho windows e linux PCs disponíveis, mas não precisa ser de plataforma cruzada.

O que você sugere?

    
por callasabra 15.02.2016 / 16:15

1 resposta

1

Gostaria de poder pesquisar o conteúdo desses arquivos (tiff).

Duas soluções são apresentadas abaixo, para Windows e Linux.

Solução do Windows

Você pode instalar o TIFF IFilter .

Windows® TIFF IFilter enables you to search for TIFF documents based on text content. When loaded, Windows TIFF IFilter performs optical character recognition (OCR) processing of TIFF images, and then it provides the recognized text to the caller to build the search index.

Windows TIFF IFilter focuses on text-based documents, which means that searching will be more successful for documents that contain clearly identifiable text (for example, black text on a white background), and less successful for documents that contain mixed content (for example, artistic text or text inside of pictures). Additionally, low-quality images and mixed languages can negatively impact OCR processing, and consequently, lower the quality of the search results.

Windows TIFF IFilter supports all TIFF documents that are complaint with Adobe TIFF Revision 6.0 specifications, and it includes the most frequent compressions (such as LZW, JPG, CCITT v4, CCITT v6, and uncompressed).

O link da fonte inclui instruções detalhadas de instalação.

Nota:

Fonte Guia de Instalação e Operações do IFilter TIFF do Windows

Solução Linux

  1. Converta os arquivos TIFF em arquivos de texto ou arquivos PDF.

    • O link abaixo mostra como converter em PDF com uma etapa intermediária de OCR (que usa o Tesseract).

    • A etapa intermediária produz um arquivo de texto.

    • Isso significa que o PDF é criado a partir de texto e não de imagens.

  2. Pesquise os arquivos de texto ou os arquivos PDF como desejar.

Veja Digitalizando e editando texto com OCR para uma abordagem para a conversão.

    
por 15.02.2016 / 16:24