EDIT: Teste adicionado para dados classificados com LC_COLLATE = C
A sequência de intercalação padrão é tratar esses caracteres de "tipo de pontuação" como sendo de igual valor. Use LC_COLLATE=C
para tratá-los na ordem de ponto de código.
for i in 'a1' 'a_1' 'a-1' 'a,1' 'a.1' 'a2' 'a_2' 'a-2' 'a,2' 'a.2' ;do
echo $i;
done |LC_COLLATE=C sort
Saída
a,1
a,2
a-1
a-2
a.1
a.2
a1
a2
a_1
a_2
O código a seguir testa todos os caracteres válidos UTF-8 no Basic Multilingual Plane (exceto \ x00 e \ x0a ; para simplificar )
Ele compara um arquivo em uma sequência crescente (gerada) conhecida, contra esse arquivo classificado aleatoriamente e depois classificado novamente com LC_COLLATE = C. O resultado mostra que a sequência C é idêntica à sequência gerada original.
{ i=0 j=0 k=0 l=0
for i in {0..9} {A..F} ;do
for j in {0..9} {A..F} ;do
for k in {0..9} {A..F} ;do
for l in {0..9} {A..F} ;do
(( 16#$i$j$k$l == 16#0000 )) && { printf '.' >&2; continue; }
(( 16#$i$j$k$l == 16#000A )) && { printf '.' >&2; continue; }
(( 16#$i$j$k$l >= 16#D800 &&
16#$i$j$k$l <= 16#DFFF )) && { printf '.' >&2; continue; }
(( 16#$i$j$k$l >= 16#FFFE )) && { printf '.' >&2; continue; }
echo 0x"$i$j$k$l" |recode UTF-16BE/x4..UTF-8 || { echo "ERROR at codepoint $i$j$k$l " >&2; continue; }
echo
done
done
done; echo -n "$i$j$k$l " >&2
done; echo >&2
} >listGen
sort -R listGen > listRandom
LC_COLLATE=C sort listRandom > listCsort
diff <(cat listGen; echo "last line of listOrig " ) \
<(cat listCsort; echo "last line of listCsort" )
echo
cmp listGen listCsort; echo 'cmp $?='$?
Saída:
63485c63485
< last line of listOrig
---
> last line of listCsort
cmp $?=0