Organizando dados tridimensionais com awk / sed / perl

3

Eu tenho este arquivo (uma matriz esparsa):

PC.354 OTU1 6
PC.354 OTU2 1
PC.356 OTU0 4
PC.356 OTU2 7
PC.356 OTU3 3

Eu quero uma saída como essa (matriz densa -classic .biom table):

OTU_ID PC.354  PC.355  PC.356
OTU0   0   0   4
OTU1   6   0   0
OTU2   1   0   7
OTU3   0   0   3

Como posso fazer isso com o awk / perl / sed? Eu encontrei uma pergunta semelhante sobre o pacote R (xtabs / tidyr), mas eu não estou acostumado com isso.

    
por Lika 25.05.2016 / 20:48

2 respostas

4

Em perl:

#!/usr/bin/perl

my (%hotu, %hpc)=();
while(<>){
  my($pc,$otu,$v)=split;
  $hpc{$pc}=1;
  ($hotu{$otu} or $hotu{$otu}={})->{$pc}+=$v;
}
#headers
my @apc = sort keys %hpc;
print join ("\t", 'OTU_ID', @apc) . "\n";
#values
foreach my $otu (sort keys %hotu) {
  print join ("\t", $otu, map {$_=0 unless defined; $_} @{$hotu{$otu}}{@apc}) . "\n";
}
    
por 26.05.2016 / 08:33
3

Em awk :

{ data[$2, $1] = $3; }
END {
    split("OTU0 OTU1 OTU2 OTU3", rows);
    split("OTU_ID PC.354 PC.355 PC.356", cols);
    for (i = 1; i <= 4; i++) {
        printf("%10s", cols[i]);
    }
    print "";
    for (i = 1; i <= 4; i++) {
        printf("%-10s", rows[i]);
        for (j = 2; j <= 4; j++) {
            item = data[rows[i], cols[j]];
            if (!item) { item = "0" };
            printf("%10s", item);
        }
        print "";
    }
}

Observe que incluí explicitamente todas as linhas e colunas de sua saída de amostra. Isso não é necessário se os dados realmente incluírem todas as linhas e colunas, o que seus dados de amostra não contêm.

    
por 26.05.2016 / 08:43