Não é possível salvar corretamente a origem de um arquivo .html contendo letras russas como .txt

0

Quando salvei a fonte desta página de um website russo:

http://www.mail.ru/

como um arquivo .txt, todas as letras russas se transformam em caracteres chineses (estou trabalhando em um computador chinês no momento), mas quando salvo outra página de outro site russo:

http://starling.rinet.ru/cgi-bin/response.cgi?root=/usr/local/share/starling/morpho&morpho=0&basename=\usr\local\share\starling\morpho\ozhegov\ozhegov&first=4001

também como um arquivo .txt, todas as letras russas são salvas corretamente.

Alguma idéia de por que isso pode estar acontecendo?

    
por brilliant 25.06.2011 / 17:23

2 respostas

2

As páginas da Web mencionadas usam codificações diferentes. A página mail.ru usa o Cyrillic Windows-1251, a página rinet.ru usa o Unicode UTF-8.

Pode ser que a fonte mail.ru seja salva exatamente como o servidor a enviou, mas seu editor de texto não detectou a codificação ou não a suporta. Veja se o seu editor de texto tem uma opção ou menu de Codificação e tente diferentes codificações.

Como teste, você pode arrastar e soltar o arquivo de texto em seu navegador da web. Se o texto em russo não aparecer corretamente, você poderá tentar codificações diferentes. Dependendo do seu navegador da Web, você pode usar algo como clicar com o botão direito do mouse → Codificação ou menu de página → Codificação ou Exibir → Codificação.

Esse teste pode ajudar a confirmar se o editor de texto não está detectando a codificação ou se a codificação do arquivo de texto foi convertida incorretamente quando foi salva.

    
por 25.06.2011 / 18:39
1

Como visto na fonte html, estas duas páginas têm encondings diferentes: mail.ru está no windows-1251 e segundo link no utf-8.

O UTF-8 é usado em todo o mundo e pode ser usado para codificar todos os possíveis símbolos unicode, portanto, o texto em utf-8 deve ser visto em todos os computadores (se houver fontes corretas instaladas).

O Windows-1251 é uma codificação de 1 byte, o que significa que ele pode ser usado para codificar apenas 256 símbolos (incluindo símbolos especiais, números e alfabeto inglês em maiúsculas e minúsculas) e é usado apenas na pós-URSS. Existem muitas codificações de 1 byte usadas em todo o mundo e seu editor de texto provavelmente usa alguma codificação chinesa por padrão (ou apenas identifica a codificação incorretamente). Talvez ele possa ser alterado em suas configurações ou você pode converter texto de uma codificação para outra.

    
por 25.06.2011 / 18:38