Como extrair valores que são menores que 0 e ponto de colunas específicas e imprimir a linha inteira usando awk

0

Eu tenho um arquivo delimitado por tabulações, quero extrair entradas "exônicas" da segunda coluna, entradas "não sinonais SNV" da terceira coluna e valores menores que (< 1) e ponto (.) da coluna 4ª, 5ª 7ª

Chr     Func.refGene    ExonicFunc.refGene  1000g2015aug_eas 1000g2015a avsnp147    ExAC_ALL
chr1    intergenic      synonymous SNV      .                .          .           .
chr1    exonic          nonsynonymous SNV   1.2              .          .           .
chr2    exonic          nonsynonymous SNV   0.246            .          rs2022      0.4061
chr2    intronic        synonymous SNV      .                0.7386     rs2289093   0.7275
chr2    exonic          nonsynonymous SNV   0.6131           0.7376     rs227       0.7167
chr2    intergenic      nonsynonymous SNV   .                0.231      .           .
chr3    exonic          synonymous SNV      0.2192           0.2376     rs230       0.2205
chr3    intergenic      nonsynonymous SNV   2.01             0.2376     rs230       0.2204

Saída esperada

chr2    exonic  nonsynonymous SNV   0.246   .       rs2289195   0.4061
chr2    exonic  nonsynonymous SNV   0.6131  0.7376  rs2276599   0.7167

A seguir está o código que eu escrevi      awk -F'\t' '$2~/exonic/ && $3~/nonsynonymous SNV/ && $4~/^0/ && $5~/^0/ && $7~/^0/{print $0}' inputfile.txt >> outputfile.txt Essas entradas de extração começam com zero (que é menor que 1) da coluna 4,5 e 7, mas eu não sei como extrair entradas que são menores que 1 e ponto (.)

    
por user6681622 28.04.2017 / 14:09

1 resposta

2

Em vez de testes de expressões regulares, eu sugeriria comparações de strings para as strings e comparações numéricas para os valores numéricos, por exemplo

$2 == "exonic"

e

$4+0 < 1

(o +0 força a comparação numérica em vez de lexical). Além disso, é só uma questão de acertar a lógica:

$ awk -F'\t' '$2 == "exonic" && $3 == "nonsynonymous SNV" && ($4+0 < 1 || $4 == ".") && ($5+0 < 1 || $5 == ".") && ($7+0 < 1 || $7 == ".")' inputfile.txt
chr2    exonic  nonsynonymous SNV   0.246   .   rs2022  0.4061
chr2    exonic  nonsynonymous SNV   0.6131  0.7376  rs227   0.7167
    
por 28.04.2017 / 14:29