Qual é a conexão entre um bug do gedit e um href do Unix - & - Linux Q / A?

6

Ao responder a Unix- & ; -Linux question , observei que o Gedit e outros dois editores, Leafpad e Medit (testei 12 editores ao todo) exibem um certo bug. Como se constata, o bug é conhecido na barra de lançamento da Canonical como Bug # 332321 pesquisa (e replace) assume ss como ß .

O comportamento do bug é que find ß corresponderá a ß e ss ... (não é bom, especialmente se você fizer uma substituição).

Em seguida, observei que o software StackExchange, para criar o link href da pergunta, havia convertido o título da pergunta de How to bind “ß” to Meta-s? para how-to-bind-ss-to-meta-s .

Portanto, dois ambientes completamente diferentes estão tratando ß de maneira semelhante. Qual é essa estranha atração entre ß e ss ? ... e existem outros 'relacionamentos'?

    
por Peter.O 02.08.2011 / 19:46

2 respostas

5

ß é na verdade uma ligadura de ss (em alemão). Qualquer pessoa que use uma tabela para converter Unicode ou outros caracteres do alfabeto estendidos em caracteres "seguros" para coisas como URLs provavelmente a converterá em ss .

Fazer isso por URLs é normal. Por exemplo, falo turco, onde temos letras não encontradas em inglês como ö ü ı â ğ ç ş İ . Esses caracteres nem sempre são seguros para usar em URLs, campos de formulários especiais etc. No lugar deles, substituímos caracteres semelhantes, como o u i a g c s I . Geralmente isso é feito por semelhança visual em vez de som, mas o caso de ß da semelhança audível com ss faz com que seja uma conversão comum.

Isso constitui uma perda líquida de dados, mas como uma representação segura de um URL ou outro campo especial que funciona, então no próprio site você pode usar os caracteres reais.

Por que gedit estaria fazendo essa conversão está além de mim. É um bug.

    
por 02.08.2011 / 19:51
4

Normalização de casos. < vai para verificar com o Gedit > Sim.

Quando você faz uma pesquisa sem distinção entre maiúsculas e minúsculas, o GEdit (e suponho que os outros) normalizam o caso, e isso faz com que um certo número de equivalências de caracteres diminua. Por exemplo, ß e ss ambas em maiúsculas para SS . Caracteres compostos como é e é (o primeiro é U + 00E9 LETRA PEQUENO E AGUDA, o segundo é U + 0301 ACUMULAR AGURO COMBINADO seguido de U + 0065 LETRA PEQUENA E) também são considerados equivalentes.

Se você fizer uma pesquisa com diferenciação de maiúsculas e minúsculas, essas sequências de caracteres serão consideradas diferentes.

    
por 02.08.2011 / 23:32