Como decodificar arquivo de texto com símbolos como \ uXXXX?

1

Eu tenho um arquivo de 10 Mb contendo \uXXXX caracteres. Como posso decodificar isso com o Sublime Text?

Exemplo:

    
por LA_ 16.12.2014 / 14:08

1 resposta

1

Existem algumas coisas diferentes que você pode experimentar. Em primeiro lugar, você precisa estar usando uma fonte Unicode que suporta os caracteres que você deseja exibir. Este site no unicode.org é um bom recurso, e o Google é bastante útil, como sempre. Se você não se importar em usar uma fonte não monoespaçada, o Arial Unicode MS vem com o Windows e tem uma boa cobertura. Eu acredito que a fonte monoespaçada Consolas também faz isso.

Em segundo lugar, seu sistema operacional precisa ser configurado para exibir esses caracteres - os mais modernos são, mas você pode ter problemas com algumas versões e configurações do Windows.

No Sublime, verifique se você está visualizando o arquivo no modo correto. Tente File -> Reopen with Encoding -> UTF-8 ou ... -> UTF-16LE (ou BE , você pode tentar ambos).

Portanto, sem saber o conteúdo exato do seu arquivo, como ele foi gerado e mais detalhes sobre o seu sistema, isso é o melhor que posso fazer. Boa sorte!

EDITAR

Com base no arquivo que você vinculou, parece que esta é a saída de um programa do Python 2, já que os dados parecem ser algumas listas contendo strings unicode (sou um programador Python, como acontece). Eu procurei alguns dos pontos de código mencionados, e eles são todos cirílicos, então praticamente qualquer fonte moderna deve lidar com eles. A questão é que você vai precisar de um programa para ler o arquivo e traduzir os bytes individuais. Caso você esteja interessado, a primeira string completa (de ' a ' ) é:

Любимая акция вернулась! В ресторанах Евразия ""3 ролла по цене 1""! С 9 по 12 сентября! Только эти 4 дня! Подробности на evrasia.spb.ru, 88005050145 и 008

Sem ter o arquivo inteiro, não posso analisar a coisa toda para você, mas se você for um programador Python, você deve saber o que fazer (eu recomendo usar Python 3, seu suporte a Unicode é muito melhor do que 2.x). Se não, encontre a pessoa que gerou o arquivo e peça para decodificar os bytes para você.

    
por 16.12.2014 / 17:36