O comando colar pode colocar dois arquivos unicode lado a lado sem duplicar qualquer BOM unicode?

0

Esta é a versão da pasta que estou usando.

C:\cygwin\bin>.\paste.exe --version
paste (GNU coreutils) 8.26
Packaged by Cygwin (8.26-2)
Copyright (C) 2016 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.
This is free software: you are free to change and redis
There is NO WARRANTY, to the extent permitted by law.

Written by David M. Ihnat and David MacKenzie.

C:\cygwin\bin>

Não tenho certeza se está mais atualizado, já que não vejo a pasta listada aqui, que é onde eu acho que gostaria de atualizar

Mas eu tenho o comando paste instalado no cygwin.

Mas não está funcionando .. São inseridos caracteres extras

xxd -p é um comando que mostra hexadecimal.

file1.txt e file2.txt são dois arquivos UTF-8

C:\cro\a>file file1.txt
file1.txt: UTF-8 Unicode (with BOM) text, with no line terminators

C:\cro\a>file file2.txt
file2.txt: UTF-8 Unicode (with BOM) text, with no line terminators

file1.txt tem o código para utf-8 bom, que é EFBBBF seguido pelo hex para as letras 'aaa'. o arquivo2 tem o texto bbb.

C:\cro\a>xxd -p file1.txt
efbbbf616161

C:\cro\a>xxd -p file2.txt
efbbbf626262

Nós vemos isso aqui. Não se preocupe com o ´╗┐ que é apenas cmd tentando mostrar a BOM UTF-8. Esse não é o problema que tenho.

C:\cro\a>type file1.txt
´╗┐aaa
C:\cro\a>
C:\cro\a>type file2.txt
´╗┐bbb
C:\cro\a>

O problema é que o comando paste, quando eu o uso para tentar colocar file1 e file2 lado a lado, como você vê olhando para o hex, ele duplicou o unicode bom (efbbbf), e não deveria.

C:\cro\a>paste file1 file2 >a.a
paste: file1: No such file or directory

C:\cro\a>paste file1.txt file2.txt >a.a

C:\cro\a>type a.a
´╗┐aaa  ´╗┐bbb

C:\cro\a>xxd -p a.a
efbbbf61616109efbbbf6262620a

C:\cro\a>

Existe uma versão posterior de colar para janelas que não faz isso? Ou existe este problema mesmo na última versão linux da pasta .. E existe alguma maneira de contornar isso?

Neste meio tempo eu vou codificar os arquivos utf-8 sem a BOM, antes de usar o colar.

    
por barlop 11.12.2017 / 16:11

1 resposta

0

O passado pertence ao coreutils.

Você pode usar a pesquisa no site link

ou cygcheck -p bin/paste

Como é óbvio, não se importa com a codificação se você tem duas listas de materiais você terá uma duplicata.

    
por 12.12.2017 / 17:41