como editar um texto bilingue por script?

Question

como editar um texto bilingue por script?

#1 resposta do (0 votos)
#2 resposta do (0 votos)
#3 resposta do (0 votos)

1

Eu tenho uma coluna de palavras em que palavras inglesas são coladas a palavras chinesas como esta:

abominate********

abhor*************

(As estrelas representam o alfabeto chinês)

Eu quero escrever um script para separar as palavras em inglês e colocá-lo em outro arquivo. Isso é possível com a escrita do script?

Qualquer sugestão é bem-vinda.

scripting shell-script

por user133863 12.09.2015 / 14:02

3 respostas

Tags scripting shell-script

Debian Jessie 8.2 anula com um erro de aplicativo no VirtualBox sysv e tabela de partições desconhecida?

score 0 · Answer 1

claro, como as palavras em inglês usam o alfabeto latino e as palavras em chinês não, apenas retire o final da linha começando no primeiro símbolo não latim.

sed 's/[^a-zA-Z ].*//' < source-file >  result-file

score 0 · Answer 2

Simples, remova todos os caracteres que não sejam espaço, tabulação ou um caractere em inglês:

sed 's/[^a-zA-Z ]//g' <source >result

Cuidado para usar um modo compatível com unicode.

Você também pode fazer pós-processamento, por exemplo,

for i in $(cat result);do echo "$i";done|sort|uniq

pedirá result em ordem alfabética e removerá as duplicatas ("o", "a" e "para" acontecerão neste texto provavelmente muitas vezes, você provavelmente precisará apenas de uma delas).

score 0 · Answer 3

0

grep -Po '[\x00-\x77]+'  source > justEN.txt

por 12.09.2015 / 21:29