Como substituir caracteres Unicode no Notepad ++

3

Eu tenho arquivos .xlf parecidos com a imagem abaixo:

Gostariadesabercomopesquisaresubstituirocaracteredeunicode"xE5" por "æ" Eu pensei que poderia procurar por: ^ 0145 = xE5 e substituir "æ" , isso não funcionou.

Se isso não for possível, eu poderia usar outro editor de texto (exemplo ultraedit).

aqui está o texto colado do arquivo:

<?xml version="1.0" encoding="utf-8"?>
<xliff xmlns="urn:oasis:names:tc:xliff:document:1.2" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" version="1.2" xsi:schemaLocation="urn:oasis:names:tc:xliff:document:1.2 xliff-core-1.2-strict.xsd">
  <file xmlns:bind="http://bind.sorona.se" original="CTO12623_1_en-GB-da.xml" source-language="en" datatype="xml" date="2015-11-11T15:35:51Z" target-language="da" product-name="Anders_LP8504_151111" bind:file-id="78452" bind:file-hash="85075c54359fa47b087d6c67ec967f43">
    <header>
      <tool tool-name="Sorona TMS" tool-id="bind" tool-version="3.1.5" tool-company="Sorona Innovation" />
      <count-group name="word-count">
        <count count-type="total" unit="word">2743</count>
      </count-group>
    </header>
    <body>
      <trans-unit id="e1ca41ef868a74944745b8cd1dfa59e7" translate="yes" approved="no" restype="string" resname="p">
        <source>The trench compactor LP 8504 is a radio controlled trench compactor. It has a robust design and is suitable for compaction of medium to deep layers of cohesive and granular soils on limited areas such as trenches, construction back-fills and on roads. No other use is permitted.</source><seg-source><mrk mtype="seg" mid="1">The trench compactor LP 8504 is a radio controlled trench compactor. It has a robust design and is suitable for compaction of medium to deep layers of cohesive and granular soils on limited areas such as trenches, construction back-fills and on roads. No other use is permitted.</mrk></seg-source>
        <target state="translated"><mrk mtype="seg" mid="1">Vibrationstromlen LP 8504 er radiostyret. Den har et robust design og er beregnet til komprimering af middel til dybe lag af sammenh篧ende og granuleret jord p塢egr篳ede omr楥r s塳om gr                    
por XsiSec 29.04.2016 / 09:04

2 respostas

3

Gostaria de saber como pesquisar e substituir o caractere unicode xE5 "por æ

Observe que æ é realmente Unicode 00E6 não 00E5 .

Pesquisar e substituir não é o jeito certo de exibir os caracteres corretos.

<?xml version="1.0" encoding="utf-8"?>

Os estados acima indicam que a codificação é utf-8 , mas o arquivo está realmente codificado como ANSI .

Você precisa converter o arquivo corretamente em UTF-8 , da seguinte maneira:

  1. Abra o Testfile.xlf

  2. O arquivo se parece com:

    enter image description here

    Unicode é exibido incorretamente.

  3. Menu > Codificação > Selecione Codificar em ANSI

    enter image description here

  4. O arquivo se parece com:

    enter image description here

    Unicode é exibido corretamente.

  5. Selecione todo o conteúdo do arquivo ( ctrl + a )

  6. Menu > Codificação > Selecione Converter para UTF-8

    enter image description here

  7. Salve o arquivo ( ctrl + s )

  8. Feche e reabra.

  9. O arquivo agora está codificado corretamente como os caracteres UTF-8 e Unicode são exibidos corretamente.

Como você pode ver que o arquivo é realmente ANSI?

O utilitário cygwin file mostra isso (antes e depois da conversão):

DavidPostill@Hal /f/test
$ file -i Testfile*.xlf
Testfile.xlf:          application/xml; charset=iso-8859-1
TestfileConverted.xlf: application/xml; charset=utf-8
    
por 29.04.2016 / 12:43
0

Se você quiser remover completamente os caracteres UTF-8 / unicode, clique em Encoding no NPP e siga as etapas abaixo, na ordem:

  1. Selecione Codificar em UTF-8 (se estiver no momento em ANSI)
  2. Selecione Converter em ANSI (também em codificação)
  3. Salvar arquivo

Quando faço isso, todos os caracteres UTF-8 / unicode desaparecem.

    
por 14.10.2017 / 17:53