claro, como as palavras em inglês usam o alfabeto latino e as palavras em chinês não, apenas retire o final da linha começando no primeiro símbolo não latim.
sed 's/[^a-zA-Z ].*//' < source-file > result-file
Eu tenho uma coluna de palavras em que palavras inglesas são coladas a palavras chinesas como esta:
abominate********
abhor*************
(As estrelas representam o alfabeto chinês)
Eu quero escrever um script para separar as palavras em inglês e colocá-lo em outro arquivo. Isso é possível com a escrita do script?
Qualquer sugestão é bem-vinda.
claro, como as palavras em inglês usam o alfabeto latino e as palavras em chinês não, apenas retire o final da linha começando no primeiro símbolo não latim.
sed 's/[^a-zA-Z ].*//' < source-file > result-file
Simples, remova todos os caracteres que não sejam espaço, tabulação ou um caractere em inglês:
sed 's/[^a-zA-Z ]//g' <source >result
Cuidado para usar um modo compatível com unicode.
Você também pode fazer pós-processamento, por exemplo,
for i in $(cat result);do echo "$i";done|sort|uniq
pedirá result
em ordem alfabética e removerá as duplicatas ("o", "a" e "para" acontecerão neste texto provavelmente muitas vezes, você provavelmente precisará apenas de uma delas).
grep -Po '[\x00-\x77]+' source > justEN.txt
Tags scripting shell-script