Unicode para comunicação científica - útil mas inconsistente? (Especificamente sobrescrito / subscrito)

1

O Unicode fornece um conjunto decente de caracteres para fins científicos. Você tem coisas como os colchetes apontados comumente usados em mecânica quântica e física estatística (| ψ⟩, ⟨T⟩), símbolos para constantes comumente usadas (ℏ), até mesmo como números sobrescritos e subscritos, parantésicos e letras (χ⁽²⁾ ).

Estou sempre um pouco confuso com a inconsistência do último. Procurando por exemplo em Wikipedia , você notará que um grande subconjunto do alfabeto latino está disponível como índices, mas não todos. Enquanto eu entendo, por que as pessoas podem não querer colocar apenas TODOS os caracteres de todos os alfabetos em unicode como super e subscrito, mas eu realmente me pergunto por que o alfabeto latino foi incluído na metade apenas para subscrito e menos ainda para sobrescrito.

Existe algum raciocínio por trás disso ou é uma omissão real?

PS: Eu temo que isso não seja uma pergunta que combina muito bem com o superusuário, mas não consegui pensar em um site de troca de pilha mais adequado.

PPS: Estou escrevendo esses símbolos usando o método de entrada "TeX" do Emacs e, alternativamente, um script Autohotkey gerado a partir de sua tabela de símbolos.

    
por kdb 07.05.2014 / 17:34

1 resposta

1

Unicode é um padrão para codificar texto simples . Assim, qualquer símbolo usado em textos matemáticos é um candidato à codificação como um caractere Unicode, e um número muito grande desses caracteres foi codificado. O processo está em andamento e novos caracteres serão adicionados se forem realmente levados para o usuário.

Sobrescrever e subscrever é como tal, não texto simples, mas “rich text”, assim como itálico, negrito, fontes específicas, cores, planos de fundo, bordas e letras animadas são. Um sobrescrito "2" ainda é o caractere "2", apenas em uma posição elevada e geralmente em tamanho menor. Dessa perspectiva, poderíamos dizer que sobrescritos e subscritos não precisam ser codificados. Caracteres normais podem ser usados, e dispositivos além do nível de texto simples, ou “protocolos de nível superior” podem ser usados, como comandos em um processador de texto, configurações de estilo, marcação HTML ou MathML, etc.

Portanto, a questão é realmente por que os sobrescritos e os subscritos foram incluídos no Unicode, e não porque eles não constituem um conjunto uniforme. Uma razão é que outros códigos de caracteres têm caracteres sobrescritos e subscritos. Unicode tem que incluí-los. Outra razão é dada na nota Unicode em XML e outras linguagens de marcação : “Letras e dígitos super e subscritos são É bastante comum em algumas formas de transcrições fonéticas ou fonêmicas, em que o uso de estilos é inadequado e propenso a problemas de integridade de dados quando exportado para texto simples. Para letras super ou subscritas em transcrição fonética em particular, uma mudança de sobrescrito de subscrito para estilo regular alteraria o significado. Observe que esse uso na transcrição não se limita a letras: os dígitos pequenos sobrescritos costumam ser usados para indicar tom. Quando usados para esses propósitos, esses caracteres devem ser retidos e a marcação não deve ser usada. ”

No entanto, adicionar versão sobrescrita e subscrita de qualquer personagem significaria adicionar cerca de 200.000 caracteres. Em seguida, alguém gostaria de ter versões em itálico e negrito de qualquer caractere, e assim por diante, e ficaríamos sem espaço de codificação. Antes disso, os tipógrafos teriam falhas nervosas: eles realmente não querem criar glifos para esses caracteres (a maioria nunca seria usada).

É por isso que o documento citado acrescenta: “Quando usado em contexto matemático (MathML), recomenda-se usar consistentemente marcação de estilo para sobrescritos e subscritos. Isso ocorre porque o layout matemático permite não apenas símbolos individuais, mas expressões inteiras são sobrescritas ou subscritas de maneira aninhada e regular. ”

    
por 07.05.2014 / 19:39