Como posso dizer ao Firefox para ignorar caracteres não imprimíveis?

4

Editar: Resumo

Aparentemente, o caractere a ser exibido neste caso é um "en-dash".

Esta página tem uma tabela na metade do caminho que mostra que, para o – , algum software converterá o código hexadecimal correto de 2013 a 0096. (veja a primeira linha na tabela).

Esta resposta on Stackoverflow explica que de alguma forma isso é uma confusão entre o Windows-1252 e UTF-8

Este artigo do blog reforça isso:

Character 150 (0x96) is the unicode character "START OF GUARDED AREA" in the non-displayed C1 control character range, but in the Windows-1252 encoding it's mapped to to the displayable character 0x2013 "en-dash" (a short dash).

Outros enfrentaram dificuldades ao produzir conteúdo, como esta resposta no Stackoverflow mostra como substituir 0x0096 por 0x2013.

O Google precisa perceber isso, porque, conforme declarado na minha pergunta original abaixo, a versão em cache do Google da página da Amazon tem – , então parece que eles estão corrigindo automaticamente esses erros nas páginas que armazenam em cache.

Eu tentei definir minha codificação para o Windows-1252, mas isso não ajuda.

Então, agora eu acho que a minha pergunta é, como posso dizer ao Firefox para ignorar caracteres não imprimíveis como estes?

Conteúdo original abaixo:

(Firefox 3.6.13 no Windows XP)

De vez em quando, vejo um caractere estranho em determinadas páginas da Web ao navegar na web. É um esboço de uma caixa com um número de 4 dígitos dentro.

E o exemplo de uma página com esses caracteres é: link

Após cada título de seção (Elástico, Completamente Controlado, ...), vejo uma caixa com o número "0096" dentro. Eu olhei para a versão em cache no Google, e o Google tem – em seu lugar, então eu estou supondo que eu deveria estar vendo um traço lá em vez da caixa com os números nele.

Eu tentei alterar a codificação de caracteres no Firefox, mas não consegui encontrar uma que mostre esses caracteres corretamente.

Existe uma maneira de permitir que o Firefox visualize esses caracteres?

Obrigado antecipadamente!

Editar - adicionando uma captura de tela dos caracteres "especiais":

Editar#2-experimentadonoUbuntu-novascapturasdetela

EuentreinomeudesktopUbuntuenavegueiparaapáginadaAmazonnoChromeenoFirefox.OGoogleChromeignoracompletamenteocaractere,mesmoseeuinspecionarouvisualizarafontedapágina.OFirefoxnoUnbutuexibeocaractereexatamentecomooFirefoxnaminhacaixadoWindowsXP.Copieiopersonagemebrinqueicomelenalinhadecomando-aquiestáumacapturadeteladosresultados:

Parece que também posso colar o personagem neste post: ''

Definitivamente não é isolado para o Windows XP. Eu tentei definir a codificação de caracteres para o meu terminal para o Windows 1252 (a partir do comentário de Dennis abaixo), mas, em seguida, ele apenas exibe esse caractere como um ponto de interrogação.

Eu puxei a página para baixo com wget e com curl, e ambas as saídas mostram esses caracteres como: <96>

Isso me faz pensar se esse personagem é processado corretamente para alguém? Parece webkit apenas ignora, meu IE6 ignora, o Firefox exibe a caixa com os números nele. Eu teria que imaginar que a equipe de design da Amazon pode vê-lo corretamente?

Não é um grande problema fazer com que esses caracteres sejam exibidos corretamente, mas seria bom saber se existe uma solução para isso.

    
por BrianH 03.01.2011 / 19:52

2 respostas

0

0096 é provavelmente uma referência ASCII ao 'char' que pode ser exibido em HTML como &#96;

Olhando para o link, no entanto, o HTML parece normal e não há referência a &ndash;

...

<p><span class="product_highlights">Elastic</span>  Amazon <span class="caps">EC2</span> enables you to increase or decrease capacity within minutes, not hours or days. You can commission one, hundreds or even thousands of server instances simultaneously. Of course, because this is all controlled with web service APIs, your application can automatically scale itself up and down depending on its needs.</p> 


    <p><span class="product_highlights">Completely Controlled</span>  You have complete control of your instances. You have root access to each one, and you can interact with them as you would any machine. You can stop your instance while retaining the data on your boot partition and then subsequently restart the same instance using web service APIs. Instances can be rebooted remotely using web service APIs. You also have access to console output of your instances.</p> 


    <p><span class="product_highlights">Flexible</span>  You have the choice of multiple instance types, operating systems, and software packages.  Amazon <span class="caps">EC2</span> allows you to select a configuration of memory, <span class="caps">CPU</span>, instance storage, and the boot partition size that is optimal for your choice of operating system and application.  For example, your choice of operating systems includes numerous Linux distributions, Microsoft Windows Server and OpenSolaris.</p> 

...

O Firefox não deve ter problemas para exibir o glifo de traço como acabei de testar em 3.6. * ...

<html>
    <head>
        <body>
            My dash is &ndash;
        </body>
    </head>
</html>

... copie e cole o código acima em um documento de teste e nomeie-o test.html e abra-o no Firefox. Ele deve exibir seu traço sem problemas.

EDIT : Como apontado por Dave 0x96 é o equivalente ANSI de en traço. Com esse entendimento, parece que esse é um problema de análise em relação à especificação do tipo de documento dentro da própria página. Confira este tópico .

Você pode extrair o HTML e modificar o tipo de documento para ver se realmente esse é o ponto de origem do problema. É mais provável que um cruzamento entre valores codificados, ou seja ... ANSI - > Unicode; como Unicode, o valor é um caractere não imprimível.

    
por 03.01.2011 / 20:33
0

O erro parece estar na página. Tente alterar a codificação de caracteres para o Windows-1252 no Firefox para ver se isso ajuda.

Muitas páginas Web mal configuradas dizem que são ISO-8859-1 ou UTF-8 e são realmente Windows-1252.

Se é uma página que você controla, tente salvá-la novamente e especificar uma codificação diferente.

    
por 04.01.2011 / 16:25