O tamanho do arquivo é 962,120,335 bytes.
HP-UX ****** B.11.31 U ia64 ****** licença de usuário ilimitado
hostname> what /usr/bin/awk
/usr/bin/awk:
main.c $Date: 2009/02/17 15:25:17 $Revision: r11.31/1 PATCH_11.31 (PHCO_36132)
run.c $Date: 2009/02/17 15:25:20 $Revision: r11.31/1 PATCH_11.31 (PHCO_36132)
$Revision: @(#) awk R11.31_BL2010_0503_1 PATCH_11.31 PHCO_40052
hostname> what /usr/bin/sed
/usr/bin/sed:
sed0.c $Date: 2008/04/23 11:11:11 $Revision: r11.31/1 PATCH_11.31 (PHCO_38263)
$Revision: @(#) sed R11.31_BL2008_1022_2 PATCH_11.31 PHCO_38263
hostname>perl -v
This is perl, v5.8.8 built for IA64.ARCHREV_0-thread-multi
hostname:> $ file /usr/bin/perl
/usr/bin/perl: ELF-32 executable object file - IA64
hostname:> $ file /usr/bin/awk
/usr/bin/awk: ELF-32 executable object file - IA64
hostname:> $ file /usr/bin/sed
/usr/bin/sed: ELF-32 executable object file - IA64
Não há ferramentas GNU aqui.
Quais são minhas opções?
Como remover linhas duplicadas em um grande arquivo de texto multi-GB?
e
link
perl -ne 'print unless $seen{$_}++;' < file.merge > file.unique
lança
Out of Memory!
O arquivo resultante de 960 MB é mesclado a partir dos arquivos desses tamanhos listados abaixo, sendo a média de 50 MB
22900038,
24313871,
25609082,
18059622,
23678631,
32136363,
49294631,
61348150,
85237944,
70492586,
79842339,
72655093,
73474145,
82539534,
65101428,
57240031,
79481673,
539293,
38175881
Pergunta: Como realizar a mesclagem de classificação externa e desduplicar esses dados? Ou como desduplicar esses dados?