como editar um texto bilingue por script?

1

Eu tenho uma coluna de palavras em que palavras inglesas são coladas a palavras chinesas como esta:

abominate********

abhor*************

(As estrelas representam o alfabeto chinês)

Eu quero escrever um script para separar as palavras em inglês e colocá-lo em outro arquivo. Isso é possível com a escrita do script?

Qualquer sugestão é bem-vinda.

    
por user133863 12.09.2015 / 16:02

3 respostas

0

claro, como as palavras em inglês usam o alfabeto latino e as palavras em chinês não, apenas retire o final da linha começando no primeiro símbolo não latim.

sed 's/[^a-zA-Z ].*//' < source-file >  result-file
    
por 12.09.2015 / 16:21
0

Simples, remova todos os caracteres que não sejam espaço, tabulação ou um caractere em inglês:

sed 's/[^a-zA-Z ]//g' <source >result

Cuidado para usar um modo compatível com unicode.

Você também pode fazer pós-processamento, por exemplo,

for i in $(cat result);do echo "$i";done|sort|uniq

pedirá result em ordem alfabética e removerá as duplicatas ("o", "a" e "para" acontecerão neste texto provavelmente muitas vezes, você provavelmente precisará apenas de uma delas).

    
por 12.09.2015 / 16:54
0
grep -Po '[\x00-\x77]+'  source > justEN.txt
    
por 12.09.2015 / 23:29