OK, eu estava sendo bobo, o conjunto de caracteres foi alterado para unicode e eu não percebi.
Doy.
Eu estava fazendo um trabalho de programação que envolvia gravar dados em um arquivo CSV grande (700 MB). Eu ocasionalmente abri o arquivo usando o libre office para verificar os dados que chegavam.
Hoje de manhã eu abri o arquivo (enquanto ele estava sendo gravado) e copiei alguns dados para outro arquivo csv vazio para que eu possa escrever um script para ler os dados dele corretamente, para que eu possa estar pronto para quando o CSV grande o arquivo está pronto.
No entanto, depois de copiar uma linha de exemplo, fechei o arquivo grande e reabrei-o alguns minutos depois e agora meus dados ficam assim na visualização:
Oqueéimpressionante,poisnãotenhonenhumcaracterechinêsoujaponêsnosmeusdados.Abriroarquivonolibreofficecalcmeforneceumamensagem"muitos caracteres na célula", interrompendo e depois libre o Office.
Se eu olhar para o arquivo no bash, será assim:
palavras corretas mostrando e tudo. Se eu ler o arquivo usando um script python ou abrir como um arquivo de texto, ele mostrará as linhas corretamente também. O que é esse erro estranho?
OK, eu estava sendo bobo, o conjunto de caracteres foi alterado para unicode e eu não percebi.
Doy.
Tags csv libreoffice-calc