Exclua cabeçalhos e números de páginas com pdftotext

0

Estou usando o pdftotext para converter meu documento tex em texto simples.

Ele faz um excelente trabalho, mas inclui todos os cabeçalhos de página e números de página que, obviamente, eu não quero, uma vez convertido para texto simples.

No exemplo abaixo, a frase diz "Os modelos que a Taplin discute são todas as variantes ....", mas o texto simples resultante é assim (adicionei <- !!! para destacar os problemas):

Taplin therefore turns of models of global trade which seek not just to describe trade flows between countries, but explain and predict them too. The models Taplin discusses

12 <- !!!

Chapter 2. Literature review <- !!!

are all variants of a gravity model, to which the next section is dedicated.

Existe alguma maneira de melhorar isso?

    
por LondonRob 25.01.2018 / 14:50

0 respostas