Abrindo arquivo UTF-8 com codificação UTF-16 em resultados de gedit em chinês legível

1

Eu sei que isso não é realmente um problema, mas eu estava realmente curioso para saber o que está acontecendo.

Como reproduzir esse fenômeno

Abra o gedit e digite algo em (usei o texto do Lorem Ipsum em lipsum.com). Salve o arquivo e feche o gedit.

Reabra-o e clique em "Abrir" e depois em "Outros documentos ...". Clique no arquivo que você acabou de criar. Antes de clicar em abrir, clique em Character Encoding e selecione UTF-16.

Quando o arquivo é aberto, alguns chineses aparecem no editor, misturados a alguns caracteres Unicode aleatórios indistinguíveis. Agora aqui é onde a parte realmente estranha começa: Abra o Google Translate e cole no chinês. Certifique-se de selecionar "chinês" como o idioma.

Dependendo do texto, você quase sempre verá algum inglês compreensível (e até normal) em algum lugar. No meu caso, eu vi: "Para mais informações, por favor, visite nosso site em: www.globalcouncil.org", e "Esta é a primeira vez que você veio nos ver nesta área. Você está convidado a visitar o nosso site " Veja o texto completo no Pastebin.

Outras observações

  • Ao traduzir o texto usando o site freetranslation.com, parte do texto aparece invertida, assim: "image ⁥ macro 瑡 桴 礠 樠 com hunting⁴ 慭 e os preços são 挠 楬 挠 macro Ɱ 挠 Uma frase comum
  • Este texto, quando invertido, é na verdade o mesmo que o texto original que eu digitei quando a codificação era UTF-8.
  • O texto invertido parece agir também como se estivesse de trás para frente; quando eu digito algo no final do texto, aparece no começo.
  • Algumas das frases parecem tão normais (e às vezes engraçadas) que parece que isso não pode ser uma peculiaridade do software de tradução, por exemplo: "Sopa não pode ser usada no tratamento de doença pulmonar obstrutiva aguda ou crônica " Isso não foi no texto original que eu coloquei.
  • Eu encontrei esta pergunta no LinuxQuestions , que reproduz o fenômeno quando colocado no Google Translate. Aqui está um pouco do inglês compreensível: "Este é um lugar onde você pode encontrar sua tigela e tigela favoritas".

A questão

Por que isso está acontecendo? E por que as frases geradas soam tão realistas? É uma peculiaridade do gedit ou dos tradutores? (Seria bom se um falante nativo de chinês pudesse me dar sua opinião.)

Esta é a minha primeira pergunta sobre Superusuário, então, por favor, não seja duro comigo. Obrigado antecipadamente.

    
por H.A. Sanger 18.02.2018 / 17:57

1 resposta

1

Como um falante de chinês, posso dizer-lhe que esses caracteres chineses são todos lixo inválido e aleatório (desculpe por quebrar o mistério). O problema ocorre aqui:

Now here's where the really weird part begins: Open Google Translate, and paste in the Chinese. Make sure you select "Chinese" as the language

Google translate para chinês < > Inglês não é tão confiável quanto parece. O Google ainda não tem uma tradução muito precisa de chinês para inglês / inglês para chinês ainda, devido à estrutura de idioma completamente diferente do chinês e do inglês. Para citar seu exemplo.

image ⁥ macro 瑡 桴 礠 樠 with ‮ hunting⁴ 慭 and prices are 礠 楬 挠 macro Ɱ 挠One common phrase

Todas essas palavras chinesas acima, nem fazem sentido. Mas o Google translate achou que você realmente colava algo útil lá, então ele só conectaria palavras aleatoriamente em seu banco de dados.

Vamos tirar esses dois "挠 楬", que de longe podem ter pouca conexão.

"挠" pode ser flor de rega "挠 水"

E "楬" pode ser algum tipo de árvore. Então, talvez "挠 楬" esteja regando algum tipo de árvore (mesmo que nunca usemos palavras em chinês como descrito acima)

Mas o Google translate era como "significa flexibilidade"

Então, sim ... O problema é que o Google Tradutor está ruim, só isso.

Quanto a isso:

"For more information, please visit our website at: www.globalcouncil.org", and "This is the first time that you have come to see us in this area. You are welcome to visit our website."

Suspeito que você tenha copiado acidentalmente este texto junto com as palavras em chinês.

E para todas as palavras do passado, acho que o wizzwizz4 já fornece essa solução para você

    
por 18.02.2018 / 18:39