OCR PDF Analisar área selecionada

1

Eu tenho muitos documentos de saldo da conta, preciso criar um arquivo do Excel a partir de uma tabela dentro desses documentos. Eu posso prosseguir com um reconhecimento de OCR normal, mas o principal problema é que esses PDFs têm cabeçalhos de página, cabeçalhos de tabela de rodapés de página e assim por diante, gostaria de analisar apenas uma área selecionada da página (com coordenadas x, y) para cada página .

É possível fazer isso?

    
por Tobia 14.12.2015 / 10:08

1 resposta

0

Os arquivos PDFs podem ser muito diferentes uns dos outros e contêm links, botões, campos de formulário, áudio, vídeo, lógica de negócios ou podem ser uma simples coleção de imagens digitalizadas, uma para a página, mesmo que sejam um padrão. De fato, o Portable Document Format, em breve PDF , é um padrão aberto mantido pela Organização Internacional para Padronização (ISO) [1 ] .

A estratégia para extrair dados de um PDF pode diferir de acordo com sua conteúdo, e nem sempre a melhor maneira é usar um OCR; Se os dados estiverem disponíveis diretamente, é melhor evitar um nível de tratamento de dados que não seja completamente livre de erros.

  • Se os PDFs forem criados a partir de um documento de processador de texto (Word, Latex ...), você terá boas possibilidades de extrair dados com êxito sem precisar recorrer a nenhum software OCR . Com algum visualizador você pode selecionar a tabela e exportar / salvar a seleção pelo menos em txt format ou no csv one; então você pode importá-lo no eXcel. Uma pesquisa rápida em seu mecanismo de pesquisa preferido lhe dará uma lista atualizada de "open source" or "freeware" pdf tools export , ou você pode dar uma olhada na página da Wikipedia sobre software pdf [ 1b ] .
  • Existem algumas ferramentas, até mesmo código-fonte aberto ou freeware, criadas para essa finalidade e disponíveis para cada sistema operacional. Com o programa Adobe, você pode selecionar a tabela e exportar diretamente [ 2 ] em xls ou xlsx ... Novamente, uma pesquisa rápida em seu mecanismo de pesquisa preferido fornecerá uma lista atualizada de "open source" or "freeware" pdf viewers export table .

  • Há algum site na internet que oferece gratuitamente este serviço, mesmo que para contas eu não deva sugerir você ... incluiu o google docs um [3 ] .

  • Por último, mas não menos importante, se forem imagens ou se as outras estratégias falharem, você poderá usar o OCR, definindo uma caixa para limitar as opções de OCR. Com o FreeOCR [ 4 ] , por exemplo, você pode selecionar a caixa na qual executar o OCR ...

    You can draw a box around part of the image using your mouse and then OCR the current page. This is handy if you just want to get the text from one region of the page.

  • Se o seu OCR não oferecer suporte a esse recurso ou não for conveniente processar muitos arquivos ao mesmo tempo, você poderá recorrer ao Imagemagick [ 5 ] ou qualquer outra ferramenta e extrair uma sub-imagem da área interessante. Então você pode dar ao seu OCR apenas a sub-imagem selecionada , sem cabeçalho ou área inútil.
    Então scan - > extract subimage - > Ocr on the subimage - > txt ou csv data - > eXcel .

    Com o Imagemagick convert você pode fazer algo parecido com

    convert -size 2480X3508 -depth 8 -extract 640x480+1280+960 file.pdf img.png
    

    para converter um arquivo PDF em PNG, com as dimensões de tamanho de página A4 para 300 DPI e extrair uma caixa com os parâmetros de geometria [6 ] de 640x480 a partir do ponto 1280+960 .
    Tenha em atenção que, se o manual for analisado, verá a posição diferente da sua região de interesse para cada página.

por 15.12.2015 / 09:56

Tags