Eu tenho um arquivo de texto bastante grande (cerca de 20 GB) que eu uso como um banco de dados simples, então cada registro é separado por uma nova linha, e a quebra desse formato causará problemas. Este arquivo também contém alguns caracteres NUL, ou pelo menos é o que eu suspeito, pois grep
o trata como um arquivo binário.
Me deparei com essa pergunta e resposta , que declara:
Some reading has indicated that grep looks for a null character in the first thousand or so bytes, then determines from that whether or not a file is 'binary'.
Por esse motivo, estou pensando em remover esses caracteres do arquivo com algo como:
tr < file-with-nulls -d 'tr < file-with-nulls -d '%pre%0' > file-without-nulls
0' > file-without-nulls
Mas quero ter certeza de que isso não afetará a formatação do arquivo. Esta é uma possibilidade?