Os arquivos PDFs podem ser muito diferentes uns dos outros e contêm links, botões, campos de formulário, áudio, vídeo, lógica de negócios ou podem ser uma simples coleção de imagens digitalizadas, uma para a página, mesmo que sejam um padrão. De fato, o Portable Document Format, em breve PDF , é um padrão aberto mantido pela Organização Internacional para Padronização (ISO) [1 ] .
A estratégia para extrair dados de um PDF pode diferir de acordo com sua conteúdo, e nem sempre a melhor maneira é usar um OCR; Se os dados estiverem disponíveis diretamente, é melhor evitar um nível de tratamento de dados que não seja completamente livre de erros.
- Se os PDFs forem criados a partir de um documento de processador de texto (Word, Latex ...), você terá boas possibilidades de extrair dados com êxito sem precisar recorrer a nenhum software OCR . Com algum visualizador você pode selecionar a tabela e exportar / salvar a seleção pelo menos em
txt
format ou nocsv
one; então você pode importá-lo no eXcel. Uma pesquisa rápida em seu mecanismo de pesquisa preferido lhe dará uma lista atualizada de"open source" or "freeware" pdf tools export
, ou você pode dar uma olhada na página da Wikipedia sobre software pdf [ 1b ] . -
Existem algumas ferramentas, até mesmo código-fonte aberto ou freeware, criadas para essa finalidade e disponíveis para cada sistema operacional. Com o programa Adobe, você pode selecionar a tabela e exportar diretamente [ 2 ] em
xls
ouxlsx
... Novamente, uma pesquisa rápida em seu mecanismo de pesquisa preferido fornecerá uma lista atualizada de"open source" or "freeware" pdf viewers export table
. -
Há algum site na internet que oferece gratuitamente este serviço, mesmo que para contas eu não deva sugerir você ... incluiu o google docs um [3 ] .
- Por último, mas não menos importante, se forem imagens ou se as outras estratégias falharem, você poderá usar o OCR, definindo uma caixa para limitar as opções de OCR. Com o FreeOCR [ 4 ] , por exemplo, você pode selecionar a caixa na qual executar o OCR ...
You can draw a box around part of the image using your mouse and then OCR the current page. This is handy if you just want to get the text from one region of the page.
-
Se o seu OCR não oferecer suporte a esse recurso ou não for conveniente processar muitos arquivos ao mesmo tempo, você poderá recorrer ao Imagemagick [ 5 ] ou qualquer outra ferramenta e extrair uma sub-imagem da área interessante. Então você pode dar ao seu OCR apenas a sub-imagem selecionada , sem cabeçalho ou área inútil.
Entãoscan
- >extract subimage
- >Ocr on the subimage
- >txt
oucsv
data - >eXcel
.Com o Imagemagick convert você pode fazer algo parecido com
convert -size 2480X3508 -depth 8 -extract 640x480+1280+960 file.pdf img.png
para converter um arquivo PDF em PNG, com as dimensões de tamanho de página A4 para 300 DPI e extrair uma caixa com os parâmetros de geometria [6 ] de
640x480
a partir do ponto1280+960
.
Tenha em atenção que, se o manual for analisado, verá a posição diferente da sua região de interesse para cada página.