Problema de caractere acentuado

0

Eu tenho um monte de sites codificados em UTF-8. Eles contêm sotaques e aqueles estranhos n's com os rabiscos sobre eles e todos os tipos de coisas divertidas.

Quando eu tento abri-los em qualquer editor de texto, até o Notepad ++ com codificação de caracteres definido como UTF-8, recebo alguns caracteres estranhos.

No meu navegador:

Noeditordetexto:

Alguém poderia explicar o que está acontecendo aqui?

    
por Simon Kiely 06.02.2015 / 11:33

3 respostas

1

O HTML usa entidades a seguir para letras e outros caracteres usados em idiomas estrangeiros. Dê uma olhada e você verá que "ó" character é "ó" .

E este é um bom artigo sobre o UTF-8 e a codificação de caracteres em navegadores:

In the beginning, there was ASCII, and things were simple. But they weren't good, for no one could write in Cyrillic or Thai. So there exploded a proliferation of character encodings to remedy the problem by extending the characters ASCII could express. This ridiculously simplified version of the history of character encodings shows us that there are now many character encodings floating around.

A character encoding tells the computer how to interpret raw zeroes and ones into real characters. It usually does this by pairing numbers with characters.

    
por 06.02.2015 / 11:47
1

A página foi escrita usando referências de entidade (termo antigo) ou referências de caracteres nomeados (termo HTML5), que são notações especiais para caracteres. Em uma página codificada em UTF-8, você pode usar, por exemplo, "Y" como tal, mas uma referência como ó é válida também e pode ser preferida pelos autores / desenvolvedores da página por vários motivos (por exemplo, não saber como digitar "ó"). Muitas vezes, o uso de entidades é apenas um resquício de práticas antigas que antes eram necessárias (na década de 1990) antes do amplo apoio ao UTF-8 em navegadores.

A notação ó é completamente segura de usar, embora torne o código-fonte HTML menos legível. Por exemplo, se um usuário copia e cola o texto, ele obtém “o”, porque ó existe apenas na fonte HTML; ele é convertido internamente para “o” pelo analisador de HTML de um navegador.

No entanto, algumas algumas referências não são seguras. Geralmente, as entidades definidas no HTML 4.01 são seguras. (Alguns deles podem se referir a caracteres que nem sempre são processados corretamente devido a problemas de fonte, mas esses problemas existem independentemente do uso de uma entidade versus o próprio caractere.) Há um conjunto muito maior de nomeou referências de caracteres em HTML5 e as versões antigas de navegadores geralmente não têm suporte para as extensões.

Por exemplo, ō pode ou não ser suportado. Se suportado, é mostrado como “ō” (o com macron); se não for suportado (por exemplo, no IE 9 e anterior), será processado literalmente. Portanto, é muito mais seguro usar o próprio caractere ou o numérico referece ō .

    
por 06.02.2015 / 13:52
1

Quando eu tento abri-los em qualquer editor de texto, recebo alguns caracteres estranhos

importación

Eles são Códigos de entidades especiais em HTML .

ó é a representação de caractere especial para um "minúsculo" o "com acento agudo".

Você pode ver a lista completa de Códigos de entidades especiais em HTML na tabela de códigos HTML .

HTML Entities and/or ISO Latin-1 codes can be placed in source code like any other alphanumeric characters to produce special characters and symbols that cannot be generated in HTML with normal keyboard commands.

For example, to render Düsseldorf the HTML source should read

Düsseldorf or Düsseldorf

Fonte HTML: caracteres especiais

    
por 06.02.2015 / 11:53