Corrigindo o texto corrompido

2

Eu tenho um texto com esta aparência:

supposed to undergo yearly cardiac exam in order to stay on transplant list. But, there are > patients who are missing important cardiac information. It is yo ur job as an intern on call to  make sure that you fin

Como você pode ver, a primeira linha está bem, mas a segunda linha está corrompida. Parece com isso mesmo quando eu abri-lo usando o Vim ou o LibreOffice. Existe uma maneira de corrigir isso? Eu tentei mudar a codificação para UTF-8, mas sem sucesso. Obrigado!

    
por oort 18.06.2012 / 02:31

2 respostas

2

Parece-me que ele pode ter começado a vida como um tipo de texto padrão com marcadores de substituição e foi processado por um utilitário que não tinha codificação defensiva suficiente nele - uma variação em este quadrinho xkcd . Pode, por exemplo, ter sido gerado usando um processador XSLT com bugs.

Se é isso que você vê como texto simples, provavelmente não há muito o que fazer além de voltar para a fonte original. Arquivos de texto simples não contêm informações ocultas extras. Uma codificação incorreta pode causar problemas, mas se o seu editor for carregado assumindo uma codificação de byte por caractere e essa codificação estiver errada, você ainda deverá ver mais coisas na forma de caracteres ilegíveis.

Há uma chance de que possa haver um caractere de fim de arquivo ou nulo impedindo que a parte final do texto seja mostrada, mas nenhum editor de texto decente deve ser enganado com isso nos dias de hoje.

    
por 18.06.2012 / 04:10
1

Lembre-se sempre de trabalhar em uma cópia de backup até ter certeza de que funciona.

Você pode tentar carregar o arquivo de texto no vim, forçando um método de codificação diferente

inicie o vim (ou gvim, o que for)

:e ++enc=utf-8 textfilename.txt

O vim conhece vários tipos de codificação, tente repetidamente percorrê-los. Nos arquivos de ajuda:

Os valores de 'codificação' suportados são:

latin1, iso-8859-n, cp437, cp737, cp775, cp850, cp852, cp855, cp857, cp860, cp861, cp862, cp863, cp865, cp866, cp869, utf-8, ucs-2, ucs-2le , utf-16, utf-16le, ucs-4, ucs-4le

Minha pergunta sobre o arquivo de texto bruto é determinar se ele tem um BOM no início ( Marca de pedido de byte ) , o que nos daria uma idéia do que ele pensa.

    
por 18.06.2012 / 03:51