Estou usando o pdftotext para converter meu documento tex em texto simples.
Ele faz um excelente trabalho, mas inclui todos os cabeçalhos de página e números de página que, obviamente, eu não quero, uma vez convertido para texto simples.
No exemplo abaixo, a frase diz "Os modelos que a Taplin discute são todas as variantes ....", mas o texto simples resultante é assim (adicionei <- !!!
para destacar os problemas):
Taplin therefore turns of models of global trade which seek not just to describe trade flows between countries, but explain and predict them too. The models Taplin discusses
12
<- !!!
Chapter 2. Literature review
<- !!!
are all variants of a gravity model, to which the next section is dedicated.
Existe alguma maneira de melhorar isso?