Corrigir palavras hifenizadas da continuação de linha no arquivo txt

2

Tenho dezenas de arquivos grandes de texto (artigos de jornal) e milhares de hifenagens de palavras que continuam na próxima linha do jornal. Há um hífen e um espaço, então o resto da palavra, como esses dois exemplos:

One possibility for United Nations ac- tion

And it would probably seek to block inclu- sion of the issue

Algumas dicas sobre como corrigir isso?

    
por psProf 27.10.2017 / 17:53

1 resposta

4

sed 's/\([[:alpha:]]\)- \([[:alpha:]]\)//g' < file.txt > file-processed.txt

Substitui <letter1>- <letter2> por <letter1><letter2> .

Isso é menos agressivo que sed 's/- //g' , o que poderia substituir outros usos do hífen, como em 13 - 4 = 9

    
por 27.10.2017 / 18:10