Perguntas sobre 'unicode'

Unicode é o principal padrão para a representação e codificação do texto de sistemas de escrita díspares; A implementação mais comum da codificação de caracteres unicode, usada pelo Ubuntu e outros sistemas operacionais, é o UTF-8.
6
respostas

Filtrando inválido utf8

Eu tenho um arquivo de texto em uma codificação desconhecida ou mista. Eu quero ver as linhas que contêm uma seqüência de bytes que não é válida UTF-8 (canalizando o arquivo de texto em algum programa). Equivalentemente, eu quero filtrar as linh...
27.01.2011 / 01:13
2
respostas

Que fontes são boas para glifos unicode

Então eu estava olhando para esta resposta em stackoverflow e percebi que minhas fontes não estão cobrindo muito do espectro unicode utf-8 (já que eu recebo muitos quadrados). Alguém conhece uma fonte que cubra todo esse post?     
30.05.2011 / 02:21
6
respostas

Como posso remover o BOM de um arquivo UTF-8?

Eu tenho um arquivo na codificação UTF-8 com BOM e quero remover a BOM. Existe alguma ferramenta de linha de comando do Linux para remover a lista de materiais do arquivo? $ file test.xml test.xml: XML 1.0 document, UTF-8 Unicode (with BOM)...
23.07.2017 / 12:05
1
resposta

Como tornar o conhecimento de caracteres não-ascii (unicode)?

Estou tentando remover alguns caracteres do arquivo (UTF-8). Estou usando tr para essa finalidade: tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat O arquivo contém alguns caracteres estrangeiros (como "Латвийская" ou "àé"). tr...
09.09.2015 / 14:57
5
respostas

Existe uma alternativa para sed que suporte unicode?

Por exemplo: sed 's/\u0091//g' file1 Neste momento, tenho que fazer hexdump para obter o número hexadecimal e colocar em sed da seguinte forma: $ echo -ne '\u9991' | hexdump -C 00000000 e9 a6 91...
17.04.2015 / 10:38
4
respostas

Como especificar caracteres usando códigos hexadecimais em 'grep'?

Estou usando o seguinte comando para grep character set range para o código hexadecimal 0900 (em vez de अ) para 097F (em vez de व). Como posso usar o código hexadecimal no lugar de अ e व? bzcat archive.bz2 | grep -v '<[अ-व]*\s' | tr '[:pun...
26.08.2011 / 08:03
6
respostas

Converte entre Unicode Normalization Forms na linha de comando unix

No Unicode, algumas combinações de caracteres têm mais de uma representação. Por exemplo, o caracter ä pode ser representado como "ä", que é o ponto de código U + 00E4 (dois bytes c3 a4 na codificação UTF-8) ou como "ä", ou seja, o...
10.09.2013 / 20:47
7
respostas

como digitar “aspas inteligentes” (U + 201C, U + 201D)

É assim: “ (U + 201C) ” (U + 201D).     
22.03.2011 / 08:53
6
respostas

Um perfil do Gnome Terminal pode usar o UTF-8 por padrão?

Estou em um sistema Ubuntu (eu acho). Eu não tenho raiz, por isso não posso alterar a localidade. Eu quero fazer o meu perfil de terminal padrão usar UTF-8 por padrão. Deve haver uma maneira de fazer isso, seja no diretório .gconf/apps/gnome-...
08.03.2011 / 21:10
6
respostas

No bash, como posso converter um ponto de código Unicode [0-9A-F] em um caractere imprimível?

Eu tenho uma lista de pontos de código Unicode, mas não conheço uma maneira "simples" de converter esses valores hexadecimais nos caracteres reais que eles representam ... Ouvi dizer que zsh tem echo -e '\u0965' , mas eu uso bash 4.1....
29.04.2011 / 06:20