O GNU sed (para Windows) pode manipular o Unicode? Em caso afirmativo, é um problema de página de código / localidade ou um comutador?

10

Estou usando o GNU SED por alguns anos. Isso me faz sair um pouco às vezes, mas faz um bom trabalho ... para conjuntos de caracteres de byte único!
De vez em quando, noto que referências ao GNU SED são compatíveis com Unicode, mas o mais próximo que eu vi disso é seu modo "binário" .. e o binário não é Unicode.
O GSED pode processar um arquivo de texto Unicode na resolução do CodePoint, incluindo e especialmente \ r \ n (Windows) ... e se puder, ele espera UTF-8, UTF-16 ou o que? e como o SED detecta a codificação?

    
por Peter.O 04.08.2010 / 22:57

1 resposta

1

Eu não sei muito sobre sed, mas depois de um pouco de Googling, parece ter suporte para uma variedade de páginas de código através da variável de ambiente LANG. Eu acredito que o UTF-8 é de fato o padrão na ausência de LANG. Eu não sei como a porta do Windows está configurada. Eu tenho uma strong suspeita de que o sed não realiza nenhum processamento de detecção no fluxo de entrada.

Fontes: link link

Você também pode tentar usar os caracteres de escape mencionados aqui: link Isso parece muito complicado.

    
por 06.08.2010 / 20:29