Copiando texto direto do arquivo gerado por látex

0

Estou tentando fazer algumas correções em um PDF documentado gerado a partir do látex.

Para fazer as correções, primeiro copio o texto do PDF.

O que acontece é que no PDF gerado, as palavras são cortadas à direita quando não se encaixam na margem, por exemplo, quando a palavra "parágrafo" é grande demais para caber, ela será cortada como:

word1 word2\n 
word3 para-\n
graph word4\n

Além disso, as quebras de linha não são feitas quando necessário, mas estão sempre no final do texto.

Eu não tenho acesso ao original. Então, isso é um problema quando eu copio o texto para editar em algum lugar, pois acabo com um monte de quebras de linha e quebras de palavras desnecessárias (não tenho certeza de como esses últimos são realmente chamados).

Existe uma maneira de copiar o texto corretamente do arquivo pdf?

Isso é algo que o arquivo PDF faz para que as palavras se encaixem perfeitamente na página, sem justificativa de texto?

    
por fullmooninu 18.09.2014 / 19:08

1 resposta

0

Estes dois regexes executados nessa ordem devem funcionar.

s/-\n//g
s/([^.])\n/$1 /g
    
por 18.09.2014 / 22:35