Como faço para procurar caracteres inválidos no gedit?

6

Estou tendo um dilema sobre editar um arquivo javascript ou não. Quando abro com o gedit, mostra o seguinte aviso:

The file you opened has some invalid characters. If you continue editing this file you could corrupt this document. You can also choose another character encoding and try again.

A codificação atual é UTF-8. Como o arquivo tem mais de 100.000 linhas de código, existe uma maneira rápida de procurar os caracteres inválidos?

    
por Question Overflow 12.04.2013 / 12:19

1 resposta

12

Como o arquivo é UTF-8, você pode executar isutf8 . Um pacote adicional de utilitários. Ele fornece linhas, caracteres e offset para bytes inválidos.

Em seguida, use xxd, hexdump ou similar para analisar.

Infelizmente, ele pára no primeiro acidente. Mas, novamente, depende do arquivo. Poderia existe apenas um byte ruim;)

Tem algum código C que faz uma análise semelhante, mas para o arquivo inteiro. Está em um disco em algum lugar há muito esquecido. Poderia tentar encontrá-lo se necessário.

Senão sim, o jeito rápido e não que sujo seria fazer um diff entre uma cópia salva com o gedit - como proposto pelo bom sr. @vonbrand .

    
por 12.04.2013 / 14:47

Tags