Programa para verificar / procurar caracteres UTF-8 / Unicode em cadeia na linha de comando?

5

Acabei de perceber que tenho um arquivo no meu sistema; lista normalmente:

$ ls -la TΕSТER.txt 
-rw-r--r-- 1 user user 8 2013-04-11 18:07 TΕSТER.txt
$ cat TΕSТER.txt 
testing

... no entanto, ele trava um software com um erro relacionado a UTF-8 / Unicode. Fiquei realmente perplexo, pois não sabia por que tal arquivo é um problema; e finalmente lembrei de verificar a saída de ls com hexdump :

$ ls TΕSТER.txt 
TΕSТER.txt
$ ls TΕSТER.txt | hexdump -C
00000000  54 ce 95 53 d0 a2 45 52  2e 74 78 74 0a           |T..S..ER.txt.|
0000000d

... Bem, obviamente existem alguns bytes entre / em vez de algumas letras, então eu acho que é um problema de codificação Unicode. E posso tentar ecoar os bytes de volta para ver o que é impresso:

$ echo -e "\x54\xCE\x95\x53\xD0\xA2\x45\x52\x2E\x74\x78\x74"
TΕSТER.txt

... mas ainda não sei dizer quais caracteres Unicode, se houver, são.

Então existe uma ferramenta de linha de comando, que eu posso inspecionar uma string no terminal, e obter informações Unicode sobre seus caracteres?

    
por sdaau 11.04.2013 / 19:06

2 respostas

6

Bem, eu olhei um pouco na net, e encontrei um one-liner ugrep em Procurar um caractere unicode pelo nome | commandlinefu.com ; mas isso não me ajuda muito aqui.

Então vi codecs - Codificação e decodificação de strings - Módulo Python da Semana , que tem muitas opções - mas não muito relacionado a nomes de caracteres Unicode.

Então, finalmente, codifiquei uma pequena ferramenta utfinfo.pl , que só aceita entrada em stdin:

  • link

... que me fornece as seguintes informações:

$ ls TΕSТER.txt | perl utfinfo.pl 
Got 10 uchars
Char: 'T' u: 84 [0x0054] b: 84 [0x54] n: LATIN CAPITAL LETTER T [Basic Latin]
Char: 'Ε' u: 917 [0x0395] b: 206,149 [0xCE,0x95] n: GREEK CAPITAL LETTER EPSILON [Greek and Coptic]
Char: 'S' u: 83 [0x0053] b: 83 [0x53] n: LATIN CAPITAL LETTER S [Basic Latin]
Char: 'Т' u: 1058 [0x0422] b: 208,162 [0xD0,0xA2] n: CYRILLIC CAPITAL LETTER TE [Cyrillic]
Char: 'E' u: 69 [0x0045] b: 69 [0x45] n: LATIN CAPITAL LETTER E [Basic Latin]
Char: 'R' u: 82 [0x0052] b: 82 [0x52] n: LATIN CAPITAL LETTER R [Basic Latin]
Char: '.' u: 46 [0x002E] b: 46 [0x2E] n: FULL STOP [Basic Latin]
Char: 't' u: 116 [0x0074] b: 116 [0x74] n: LATIN SMALL LETTER T [Basic Latin]
Char: 'x' u: 120 [0x0078] b: 120 [0x78] n: LATIN SMALL LETTER X [Basic Latin]
Char: 't' u: 116 [0x0074] b: 116 [0x74] n: LATIN SMALL LETTER T [Basic Latin]

... que identifica quais caracteres não são os ASCII "simples".

Espero que isso ajude alguém,
Felicidades!

    
por 11.04.2013 / 19:12
3

Tente usar o uniname, parte do pacote uniutils nos sistemas Debian e Ubuntu. Veja um exemplo de desinformação em ação:

echo -e "\x54\xCE\x95\x53\xD0\xA2\x45\x52\x2E\x74\x78\x74" | uniname
No LINES variable in environment so unable to determine lines per page.
Using default of 24.
character  byte       UTF-32   encoded as     glyph   name
        0          0  000054   54             T      LATIN CAPITAL LETTER T
        1          1  000395   CE 95          Ε      GREEK CAPITAL LETTER EPSILON
        2          3  000053   53             S      LATIN CAPITAL LETTER S
        3          4  000422   D0 A2          Т      CYRILLIC CAPITAL LETTER TE
        4          6  000045   45             E      LATIN CAPITAL LETTER E
        5          7  000052   52             R      LATIN CAPITAL LETTER R
        6          8  00002E   2E             .      FULL STOP
        7          9  000074   74             t      LATIN SMALL LETTER T
        8         10  000078   78             x      LATIN SMALL LETTER X
        9         11  000074   74             t      LATIN SMALL LETTER T
       10         12  00000A   0A                     LINE FEED (LF)
    
por 06.07.2014 / 14:58