Re-codifica e limpa arquivos de texto no Terminal

1

Eu tenho um lote de arquivos de texto de codificação indeterminada que eu preciso limpar caracteres incomuns. Eu usei o chadet do python biblioteca para estabelecer que 87% estão em conformidade com ISO-8859-2, mas eles ainda contêm caracteres não-conformes que os impedem de ler em R - descrito neste post de SO . Gostaria de saber se existe um caminho - de preferência um método de linha de comando - para limpar esses arquivos e converter para dizer UTF-8, com quaisquer caracteres não confirmados sendo alterados para algo como '~'. Muito grato pela ajuda.

    
por geotheory 13.10.2013 / 13:54

1 resposta

2

Você já tentou com iconv ? Eu não sei se o OSX contém este comando, mas aqui está um exemplo:

iconv -t UTF-8 myfile.txt

Se isso falhar, tente transliterá-lo:

iconv -t UTF-8//TRANSLIT myfile.txt

Atualização (dos comentários):

After a bit of experimentation iconv -t UTF-8//TRANSLIT -c infile > outfile.txt did the job. Thanks guys.

    
por 13.10.2013 / 14:11

Tags