Estes dois regexes executados nessa ordem devem funcionar.
s/-\n//g
s/([^.])\n/$1 /g
Estou tentando fazer algumas correções em um PDF documentado gerado a partir do látex.
Para fazer as correções, primeiro copio o texto do PDF.
O que acontece é que no PDF gerado, as palavras são cortadas à direita quando não se encaixam na margem, por exemplo, quando a palavra "parágrafo" é grande demais para caber, ela será cortada como:
word1 word2\n
word3 para-\n
graph word4\n
Além disso, as quebras de linha não são feitas quando necessário, mas estão sempre no final do texto.
Eu não tenho acesso ao original. Então, isso é um problema quando eu copio o texto para editar em algum lugar, pois acabo com um monte de quebras de linha e quebras de palavras desnecessárias (não tenho certeza de como esses últimos são realmente chamados).
Existe uma maneira de copiar o texto corretamente do arquivo pdf?
Isso é algo que o arquivo PDF faz para que as palavras se encaixem perfeitamente na página, sem justificativa de texto?
Estes dois regexes executados nessa ordem devem funcionar.
s/-\n//g
s/([^.])\n/$1 /g
Tags pdf latex text-editing