Mesclar 2 arquivos com base em todos os valores disponíveis da primeira coluna em ambos os arquivos

1

Eu preciso mesclar abaixo de 2 arquivos:

  • file1 :

    viewer  23
    test    27
    remark  2
    
  • file2 :

    viewer  2990
    exam    200
    remark  240
    
O arquivo mesclado

deve ser o seguinte:

type    value1  value2  difference
viewer  23      2990       -2967
test    27        0          27
remark  2        240        -238
exam    0        200        -200
    
por ekassis 01.04.2014 / 19:02

2 respostas

3

O arquivo 'x':

FNR==1 {
    ++FILENO
}
{
    T[$1]++
    X[$1,FILENO]=$2
}
END {
    print "type\tvalue1\tvalue2\tdifference"
    for(t in T)
        print t"\t"X[t,1]+0"\t"X[t,2]+0"\t"0+X[t,1]-X[t,2]
}

A corrida:

$ awk -f x file1 file2
type    value1  value2  difference
viewer  23      2990    -2967
remark  2       240     -238
test    27      0       27
exam    0       200     -200

Versão com linha para "total", ordenando e pulando linhas sem diferença:

FNR==1 {
    ++FILENO
}
{
    T[$1]++
    X[$1,FILENO]=$2
}
END {
    print "type\tvalue1\tvalue2\tdifference"
    for(t in T) {
        if(X[t,1]!=X[t,2])
            print t"\t"X[t,1]+0"\t"X[t,2]+0"\t"0+X[t,1]-X[t,2] | "sort"
        S[1]+=X[t,1]
        S[2]+=X[t,2]
    }
    close("sort")
    print "total\t"S[1]+0"\t"S[2]+0"\t"S[1]-S[2]+0
}

Eu adicionei uma linha "bocejos 3" para os dois arquivos de entrada ...

arquivo1:

yawns   3
viewer  23
test    27
remark  2

arquivo2:

viewer  2990
yawns   3
exam    200
remark  240

Em exibição:

$ awk -f x file1 file2
type    value1  value2  difference
exam    0       200     -200
remark  2       240     -238
test    27      0       27
viewer  23      2990    -2967
total   55      3433    -3378

... e "yawns" não aparecem na saída.

O GAWK pode classificar sem sort externo, mas, pelo maior tempo possível, prefiro não desassociar os recursos do GAWKy.

    
por 01.04.2014 / 19:27
3

Outra solução awk :

$ awk '
FNR==NR {
    a[$1] = $2;
    c[$1] = $1;
    next;
}
{
    b[$1] = $2;
    c[$1] = $1;
}   
END {
    printf "type\tvalue1\tvalue2\tdifference\n";
    for(i in c)
        printf "%s\t%d\t%d\t%d\n", i, a[i], b[i], a[i]-b[i]
}' file1 file2
type    value1  value2  difference
remark  2       240     -238
test    27      0       27
viewer  23      2990    -2967
exam    0       200     -200
    
por 01.04.2014 / 19:46

Tags