Extraindo texto do pdf complexo no Linux

1

Como o título diz, eu gostaria de poder extrair o texto de um documento pdf. Os documentos que eu quero analisar são folhas de tempo para um evento esportivo, e é basicamente o que parece ser uma tabela, formatada como tal:

A bunch of header info
athlete 1 5.31 (1) 38.24 (2) 57.94 (1) 42.13 120.50
          5.37 (2) 38.66 (2) 58.93 (5) 41.87 119.33
athlete 2 5.52 (5) 38.89 (4) 59.23 (7) 41.16 118.38
          5.43 (4) 38.98 (5) 59.52 (8) 41.61 117.30

Eu tentei usar o pdftotext, mas não consigo mantê-lo para manter a formatação. Parece colocar aleatoriamente as quebras de página. Por exemplo, posso obter a seguinte saída:

athlete 1 
5.31 (1)
5.37 (2)

38.24 (2)
38.66 (2) 


57.94 (1) 42.13 120.50
58.93 (5) 41.87 119.33

athlete 2
5.52 (5)
5.43 (4) 

38.89 (4)
38.98 (5)

59.23 (7) 41.16
59.52 (8) 41.61

118.38 
117.30

Alguém sabe como eu poderia extrair cada linha de texto separadamente? Ou pelo menos me aponte na direção certa?

Obrigado!

    
por Alexis 03.12.2014 / 08:27

1 resposta

1

Acontece que eu deveria ter verificado a página do manual para pdftotext. Usar a opção -layout faz um bom trabalho em preservar o layout como visto no documento original em pdf:

pdftotext pdfinput.pdf output.txt -layout
    
por 03.12.2014 / 08:45

Tags