conta as correspondências e as incompatibilidades do grupo por

1

Por favor, ajude com um script de shell do seguinte. Eu preciso contar o número de variáveis consistentes em cada pista (col1) entre as amostras (col2). Por exemplo, uma vez que todos os valores (col4) da variável da faixa 1 em todas as amostras são a amostra, a variável 1 é contada para uma variável consistente. Da mesma forma, as variáveis 2 e 3 da linha 2 são ambas inconsistentes.

lane1  sample1 variable1 ab
lane1  sample2 variable1 ab
lane1  sample3 variable1 ab   


lane1  sample1 variable2 cd
lane1  sample2 variable2 cd
lane1  sample3 variable2 cd

lane1  sample1 variable3 gh
lane1  sample2 variable3 ab
lane1  sample3 variable3 gh

lane2  sample1 variable1 ac
lane2  sample2 variable1 ac
lane2  sample3 variable1 ac


lane2  sample1 variable2 gt
lane2  sample2 variable2 gt
lane2  sample3 variable2 ac

lane2  sample1 variable3 ga
lane2  sample2 variable3 ga
lane2  sample3 variable3 ac

Saída

Número de variáveis consistentes e inconsistentes nas três amostras

      #Consistent #Inconsistent
lane1  2             1
lane2  1             2
    
por Hia Sen 16.10.2014 / 23:25

1 resposta

0

Solução de Perl:

#!/usr/bin/perl
use warnings;
use strict;
use feature qw{ say };

my %values;
while (<>) {
    next if /^$/; # Skip empty lines
    my ($lane, $sample, $var, $val) = split;
    die "Duplicate $lane $sample $var\n" if $values{$lane}{$var}{$val}{$sample};
    $values{$lane}{$var}{$val}{$sample} = 1;
}

my %results;
for my $lane (keys %values) {
    for my $var (keys %{ $values{$lane} }) {
        my $count = keys %{ $values{$lane}{$var} };
        if (1 == $count) {
            ++$results{$lane}{consistent};
        } else {
            ++$results{$lane}{inconsistent};
        }
    }
    say join "\t", $lane, @{ $results{$lane} }{qw{ consistent inconsistent }};
}
    
por 16.10.2014 / 23:35