Classificando um arquivo de texto REALMENTE GRANDE no UNIX / VMS

2

Vou classificar um arquivo de texto REALLY BIG , digamos 250Mb (ou um monte de arquivos com mais ou menos de 250Mb). Ele tem 37 campos e eu preciso classificá-lo por 5 campos, por exemplo, 1º, 4º, 5º e 6º campos. No Unix / VMS, eu tenho uma boa opção para fazer isso RÁPIDO? Eu posso escrever o programa COBOL.
           Agora eu estou tentando classificá-los usando o comando abaixo, mas ele já é executado por um longo tempo e não vai terminar.

Obrigado.

O comando que eu usei: time sort -t ',' -o sorted.txt +0 -1 +4 -5 +5 -6 +6 -7 +22 -23 * .DAT_gprscdr_ftpd

    
por lamwaiman1988 09.02.2011 / 08:34

2 respostas

3

Talvez essa pergunta deva estar em outro site da SE, mas aqui está minha opinião sobre esse assunto.

1) Não é o tipo básico que você forneceu em     sua pergunta rápido o suficiente? Quão rápido deveria     estar? Meu tipo de mesa de 2 anos     270MB de arquivos de log de acesso do Apache em     21 segundos.

2) Se isso não for rápido o suficiente, você pode tentar primeiro classificar cada arquivo individualmente e depois mesclá-los com "sort -m"

3) Se não for rápido o suficiente e você tiver mais de uma CPU / núcleo, paralelize (sp?) o processo com Paralelo GNU

4) Se ainda não for rápido o suficiente e você tiver mais máquinas disponíveis, paralelize o processo de classificação em máquinas multilinhas com GNU Parallel

    
por 09.02.2011 / 13:48
0

você pode carregar os dados no banco de dados MySQL (comando LOAD) e fazer o que quiser

    
por 10.02.2011 / 17:46

Tags