A conversão do Unicode falha. Como posso encontrar o personagem ofensivo?

1

Eu tenho um arquivo de texto em UTF-8 que contém um caractere Unicode que não está presente no CP1250 *. Eu quero salvar o arquivo como CP1250, mas tanto o Gedit quanto o Leafpad não conseguem fazer isso. Eu não sei qual personagem está realmente causando o problema: não há como usar Ctrl + F para encontrar “caracteres presentes neste arquivo que não existem na cp1250” . O documento é longo. Como posso encontrar o personagem ofensivo? Eu sei que sempre posso excluir metade do texto e prosseguir com a metade que ainda não pode ser salva, mas isso parece um pouco pesado. Existe uma maneira melhor?

* Talvez, por exemplo, o arquivo contenha ɸ (U + 0278), um caractere que não existe no CP1250.

    
por sup 05.08.2014 / 00:09

1 resposta

1

Recorte e cole o caractere "ɸ" daqui na caixa de pesquisa do seu editor e procure por ele. Então você pode excluí-lo do documento.

No entanto, apenas excluir um caractere geralmente não é recomendável. Geralmente é melhor substituí-lo por U + 001A SUBSTITUTE, indicando erro de dados em nível de caractere ou (dependendo do contexto e da aplicação) por um ponto de interrogação “?” Ou alguma notação de escape (como “U + 0278” para “ɸ ”), Para que um problema seja sinalizado para o software ou para as pessoas que lêem o arquivo. Se “ɸ” é usado corretamente no texto original, é um caractere fonético (IPA) usado na descrição da pronúncia de uma palavra. Portanto, apenas omitir isso distorceria a informação.

    
por 05.08.2014 / 05:55