Ler codificação de caracteres com sed

1

Estou tentando escrever um script para converter todos os caracteres especiais dentro de um arquivo (é, ü, ã, etc) em formato latex (\ 'e, \ "u, \ ~ a, etc). Normalmente, esse material é realmente fácil de fazer com sed , mas estou tendo problemas em conseguir sed para reconhecer os caracteres especiais.Como posso dizer ao comando para ler o arquivo usando iso ou codificação UTF-8?

Se isso não for possível, existe uma maneira de obter sed para entender caracteres especiais?

    
por Malabarba 18.04.2011 / 07:52

1 resposta

2

Pode ser tão simples quanto

iconv --from-code $enc input-file |
    sed 's/é/\'\''e/;s/ü/\"e/;s/ã/\~a/' |
    iconv -to-code $enc >converted-input-file

onde a variável enc contém a codificação do arquivo de entrada, uma das sequências obtidas de iconv -l .

    
por enzotib 18.04.2011 / 14:53