Perguntas sobre 'large-files'

1
resposta

O editor do Linux pode abrir um arquivo 200G para edição dentro de um minuto ou dois?

Estou procurando um editor que abra o arquivo em partes (não tente ler todo o arquivo na memória), já que estou tentando editar manualmente um arquivo de 200G.     
03.01.2011 / 06:11
1
resposta

Classificar arquivos CSV grandes (90 GB), cota de disco excedida

Aqui está o que eu faço agora, sort -T /some_dir/ --parallel=4 -uo file_sort.csv -k 1,3 file_unsort.csv o arquivo tem 90GB, recebi esta mensagem de erro sort: close failed: /some_dir/sortmdWWn4: Disk quota exceeded Anteriorment...
08.03.2017 / 18:34
2
respostas

como encontrar offset de um arquivo binário dentro de outro?

Eu tenho dois arquivos binários. Uma das poucas centenas de quilos e outros de poucos gigabytes. Eu quero saber se o arquivo inteiro, menor, está contido dentro do maior e em caso afirmativo, então o que é o deslocamento desde o início do arqui...
31.05.2012 / 12:05
1
resposta

Comportamento da memória mmap'd na pressão da memória

Eu tenho um arquivo tar grande (60GB) contendo arquivos de imagem. Estou usando mmap() neste arquivo inteiro para ler essas imagens, que são acessadas aleatoriamente. Estou usando mmap() pelos seguintes motivos: Segurança de thread...
14.09.2011 / 02:37
4
respostas

Grepping sobre um desempenho de arquivo enorme

Eu tenho FILE_A, que tem mais de 300 mil linhas e FILE_B, que tem mais de 30 milhões de linhas. Eu criei um script bash que faz com que cada linha em FILE_A passe por FILE_B e grave o resultado do grep em um novo arquivo. Todo este processo d...
29.05.2012 / 23:51
4
respostas

como classificar o log de acesso de forma eficiente em blocos

Os registros de acesso são mais ou menos ordenados por hora, mas para agregar conexões pelo tempo ( uniq -c ), é necessário classificá-los um pouco mais. Para um log de acesso enorme, a classificação é muito ineficiente, pois armazena e classi...
22.05.2013 / 10:51
2
respostas

Sem memória durante o uso do sed com expressões multilinhas no arquivo gigante

No momento, estou tentando remover todas as novas linhas que não são precedidas por um parêntese de fechamento, então criei esta expressão: sed -r -i -e ":a;N;$!ba;s/([^\)])\n//g;d" reallyBigFile.log Ele faz o trabalho em arquivos menores...
01.02.2013 / 14:29
1
resposta

Paralelo GNU - grepping n linhas para m expressões regulares

O paralelo GNU grepping n linhas para m expressões regulares , o exemplo declara o seguinte: If the CPU is the limiting factor parallelization should be done on the regexps: cat regexp.txt | parallel --pipe -L1000 --round-robin grep -f...
03.10.2014 / 17:25
1
resposta

Porcentagem máxima recomendada para preencher uma grande unidade de dados ext4

A porcentagem de blocos reservados padrão para sistemas de arquivos ext é de 5%. Em uma unidade de dados de 4 TB, isso é 200GB, o que parece excessivo para mim. Obviamente, isso pode ser ajustado com tune2fs: tune2fs -m <reserved perce...
30.11.2016 / 10:59
2
respostas

diff dois arquivos CSV grandes (cada 90GB) e saída para outro csv

Esta é uma pergunta de acompanhamento de Classificar arquivos CSV grandes (90 GB), cota de disco excedida . Então agora eu tenho dois arquivos CSV classificados, como file1.csv e file2.csv Cada arquivo CSV tem 4 colunas, por exemplo, arquivo...
10.03.2017 / 21:47