Corrigindo o texto corrompido

Question

Corrigindo o texto corrompido

#1 resposta do (2 votos)
#2 resposta do (1 votos)

2

Eu tenho um texto com esta aparência:

supposed to undergo yearly cardiac exam in order to stay on transplant list. But, there are > patients who are missing iｍｐｏｒｔａｎｔ　ｃａｒｄｉａｃ　ｉｎｆｏｒｍａｔｉｏｎ．　Ｉｔ　ｉｓ　ｙｏｕｒ　ｊｏｂ　ａｓ　ａｎ　ｉｎｔｅｒｎ　ｏｎ　ｃａｌｌ　ｔｏ　ｍａｋｅ　ｓｕｒｅ　ｔｈａｔ　ｙｏｕ　ｆｉｎ

Como você pode ver, a primeira linha está bem, mas a segunda linha está corrompida. Parece com isso mesmo quando eu abri-lo usando o Vim ou o LibreOffice. Existe uma maneira de corrigir isso? Eu tentei mudar a codificação para UTF-8, mas sem sucesso. Obrigado!

encoding file-corruption

por oort 18.06.2012 / 00:31

2 respostas

Tags encoding file-corruption

Editando arquivos em um servidor Ubuntu a partir do Sublime Text 2 rodando no Windows Corrigindo um comando sed para incluir caracteres condicionalmente

score 2 · Answer 1

Parece-me que ele pode ter começado a vida como um tipo de texto padrão com marcadores de substituição e foi processado por um utilitário que não tinha codificação defensiva suficiente nele - uma variação em este quadrinho xkcd . Pode, por exemplo, ter sido gerado usando um processador XSLT com bugs.

Se é isso que você vê como texto simples, provavelmente não há muito o que fazer além de voltar para a fonte original. Arquivos de texto simples não contêm informações ocultas extras. Uma codificação incorreta pode causar problemas, mas se o seu editor for carregado assumindo uma codificação de byte por caractere e essa codificação estiver errada, você ainda deverá ver mais coisas na forma de caracteres ilegíveis.

Há uma chance de que possa haver um caractere de fim de arquivo ou nulo impedindo que a parte final do texto seja mostrada, mas nenhum editor de texto decente deve ser enganado com isso nos dias de hoje.

score 1 · Answer 2

Lembre-se sempre de trabalhar em uma cópia de backup até ter certeza de que funciona.

Você pode tentar carregar o arquivo de texto no vim, forçando um método de codificação diferente

inicie o vim (ou gvim, o que for)

:e ++enc=utf-8 textfilename.txt

O vim conhece vários tipos de codificação, tente repetidamente percorrê-los. Nos arquivos de ajuda:

Os valores de 'codificação' suportados são:

latin1, iso-8859-n, cp437, cp737, cp775, cp850, cp852, cp855, cp857, cp860, cp861, cp862, cp863, cp865, cp866, cp869, utf-8, ucs-2, ucs-2le , utf-16, utf-16le, ucs-4, ucs-4le

Minha pergunta sobre o arquivo de texto bruto é determinar se ele tem um BOM no início ( Marca de pedido de byte ) , o que nos daria uma idéia do que ele pensa.