-
O formato PDF de sua criação (há mais de 20 anos) nunca foi planejado para ser um host extraível, estruturado de forma significativa dados .
-
Seu propósito original era ser uma representação visual confiável de texto, imagens e diagramas em um documento - um tipo de papel digital (que também seria confiavelmente transferido para papel real via impressão). Apenas mais tarde no seu desenvolvimento foram adicionados mais recursos, entre os quais alguns que devem ajudar na extração de dados novamente (google para Tagged PDF ).
-
Para alguns exemplos de problemas que são colocados nas tabelas de raspagem de dados dos PDFs, consulte este artigo:
-
Contradizendo meu ponto '1.' acima , agora digo isto: para uma incrível família de ferramentas que fica melhor e melhor de semana para semana para extrair dados tabulares de PDFs (a menos que sejam páginas digitalizadas), veja estes links:
Então: vá procurar por Tabula. Se alguma ferramenta puder fazer o que você quer, neste momento (4 anos depois que esta pergunta foi feita), Tabula está provavelmente entre os melhores para o trabalho!
P.S .: O Tabula é um software livre e de código aberto, escrito em Ruby.