Como posso extrair texto de uma tabela em um arquivo PDF?

5

Estou tentando implementar um algoritmo descrito em um trabalho acadêmico, que tenho em formato PDF. O algoritmo inclui uma tabela de 256 entradas que desejo copiar para minha implementação. No entanto, não consigo copiar a tabela como texto que posso manipular. Eu só posso copiá-lo como uma imagem.

Como posso extrair a tabela facilmente sem digitá-la?

    
por Nathan Fellman 10.08.2009 / 21:16

6 respostas

4

PDF2Table

Isso dá para XML, eu acho.

If we surf the web we can find PDF files in heaps. Once technical details of an amazing five mega pixel digital camera, once a statistic about the last two years incomes of an enterprise, and once a brilliant crime novel of Sir Arthur Conan Doyle is saved in a PDF file. The widespread use of this file format takes the focus on the question of how to reuse the data in such a file. Many things are already done in this area. For example, there are several tools that convert PDF-files to other formats.

My work focuses only on the extraction of table information from PDF-files. I searched for tools that extract basic information from PDF-files. I found a tool named pdf2html which also returns data in XML format. To access this XML output I used the JDOM archive.

I developed several heuristics for table detection and decomposition. These heuristics work pretty good on lucid tables (without spanning columns or rows) and fairly good on complex tables (with spanning rows or columns).

link do Sourceforge

    
por 10.08.2009 / 21:25
3

Seu problema pode ser que ele foi colado no pdf como uma imagem pelo autor original. Se esse for o caso (você pode descobrir ao ver se outro texto no documento será copiado como texto), suas únicas opções provavelmente serão copiá-lo manualmente (espere que você toque no tipo) ou use o software OCR que acompanha os scanners. / p>     

por 10.08.2009 / 21:29
3
  1. O formato PDF de sua criação (há mais de 20 anos) nunca foi planejado para ser um host extraível, estruturado de forma significativa dados .

  2. Seu propósito original era ser uma representação visual confiável de texto, imagens e diagramas em um documento - um tipo de papel digital (que também seria confiavelmente transferido para papel real via impressão). Apenas mais tarde no seu desenvolvimento foram adicionados mais recursos, entre os quais alguns que devem ajudar na extração de dados novamente (google para Tagged PDF ).

  3. Para alguns exemplos de problemas que são colocados nas tabelas de raspagem de dados dos PDFs, consulte este artigo:

  4. Contradizendo meu ponto '1.' acima , agora digo isto: para uma incrível família de ferramentas que fica melhor e melhor de semana para semana para extrair dados tabulares de PDFs (a menos que sejam páginas digitalizadas), veja estes links:

Então: vá procurar por Tabula. Se alguma ferramenta puder fazer o que você quer, neste momento (4 anos depois que esta pergunta foi feita), Tabula está provavelmente entre os melhores para o trabalho!

P.S .: O Tabula é um software livre e de código aberto, escrito em Ruby.

    
por 03.12.2014 / 19:17
1

Eu não tentei isso, mas o projeto pdf2table pode ajudar.

    
por 29.10.2012 / 00:38
0

O aplicativo não-livre PDF2XL e o gratuito O PDF Mechanic pode extrair dados tabulares para CSV e Excel com perfeição dependendo da formatação exata da tabela.

    
por 02.11.2011 / 09:50
0

Uma opção parece ser salvar o documento (ou talvez apenas a página com a tabela desejada) como um arquivo xml. Acabei de fazer isso no Adobe Acrobrat Pro salvando como "XML Spreadsheet 2003". Isso manteve o formato tabular no arquivo xml resultante (visível no Excel). A única "imperfeição" é que considera cada linha literal na tabela como uma linha no arquivo do Excel. Portanto, se qualquer texto ultrapassar as linhas (por exemplo, nomes longos), ele aparecerá como duas linhas no Excel. Para uma mesa pequena, isso é uma limpeza muito pequena.

Além disso, parece que esse processo pode ser automatizado.

    
por 12.07.2013 / 20:33

Tags