Perguntas sobre 'character-encoding'

4
respostas

suporte para codificação utf-8 com lpr

Ao tentar enviar um arquivo de texto para a impressora via lpr de xterm , o conteúdo foi corrompido além do reconhecimento, cuja causa foi rastreada até a codificação do arquivo. Se eu processar o texto com iconv (por exemplo, iconv -f...
16.08.2014 / 09:04
4
respostas

Como posso identificar um personagem estranho?

Estou tentando identificar um caractere estranho que encontrei em um arquivo com o qual estou trabalhando: $ cat file � $ od file 0000000 005353 0000002 $ od -c file 0000000 353 \n 0000002 $ od -x file 0000000 0aeb 0000002 O arquivo está...
28.04.2017 / 14:58
1
resposta

Por que meus nomes de arquivos parecem 'normais' no Linux, mas não remotamente no Windows?

Ao trabalhar com um colega, encontrei um problema estranho que parece relacionado à codificação. Estamos trabalhando com algumas imagens que têm nomes de arquivos simples o suficiente, como city.gif ou wine.gif , mas como é de se esperar qu...
06.03.2017 / 23:29
2
respostas

Especifique a codificação com libreoffice --convert-to csv

Os arquivos do Excel podem ser convertidos em CSV usando: $ libreoffice --convert-to csv --headless --outdir dir file.xlsx Tudo parece funcionar bem. A codificação, no entanto, está definida como algo instável. Em vez de um mdash UTF-8 (-...
02.02.2016 / 17:33
3
respostas

Efeito do $ LANG no terminal

Estou tentando aprender como a variável $LANG se comporta com o gnome-terminal (e sua opção de preferência de codificação de caracteres). Eu tenho usado iso8859-1 (latin1) como meu conjunto de caracteres principal e todos os meus nomes de a...
20.09.2012 / 13:35
2
respostas

Como posso alterar o código de idioma / codificação para evitar caracteres estranhos no terminal?

Eu instalei o tree na minha caixa do Ubuntu, quando eu me conectei a ele do Putty e eu inicio o tree Eu recebo isso: $ tree âââ html.vim -> xml.vim âââ js.vim -> xml.vim âââ xml.vim em vez disso: $ tree --charset=ANSII |--...
14.01.2013 / 20:55
2
respostas

Não pode usar 'cut -c' ('- caracteres') com UTF-8?

O comando cut tem uma opção -c para trabalhar em caracteres, em vez de bytes com a opção -b . Mas isso parece não funcionar, em en_US.UTF-8 locale: O segundo byte fornece o segundo caractere ASCII (que é codificado da mesma forma e...
23.10.2014 / 07:56
3
respostas

Como substituir todas as substrings UTF-8 com codificação percentual por texto simples UTF-8?

Eu tenho um arquivo html com muito texto codificado em% UTF-8 em URLs. Por exemplo, "% D1% 80% D0% B5% D1% 81% D1% 83% D1% 80% D1% 81% D1% 8B" significa "ресурсы" ("recursos" em russo). A tarefa é substituir todas essas substrings por text...
04.12.2012 / 07:12
1
resposta

'^ M' no final de cada linha de arquivos de texto gerados no Windows

Fiquei me perguntando por que, se você abrir um arquivo de texto feito no bloco de notas do Windows no UNIX, verá que ele tem ^M , onde deveria haver uma nova linha? Meu entendimento é que, no Windows, cada linha é finalizada com \r\n , o...
30.07.2011 / 02:53
2
respostas

Processe um arquivo que comece com um BOM (FF FE)

Recebi um arquivo .csv com o FF FE BOM: $ head -n1 dotan.csv | hd 00000000 ff fe 41 00 64 00 20 00 67 00 72 00 6f 00 75 00 |..A.d. .g.r.o.u.| Ao usar awk para analisá-lo, estou obtendo vários bytes nulos, que suspeito serem devid...
15.06.2014 / 10:07