separe um dado de uma coluna por caracteres repetidos em tantas colunas quanto os caracteres uniq

Question

separe um dado de uma coluna por caracteres repetidos em tantas colunas quanto os caracteres uniq

#1 resposta do (1 votos)
#2 resposta do (1 votos)
#3 resposta do (0 votos)

0

Então, eu tenho um arquivo assim:

file1 : três colunas

SNP Id Geno
1 a AB
2 a AB
3 a BB
. . .
. . .
. . .
1 b AB
2 b BB
3 b AB
. . .
. . .
. . .
1 c AA
2 c AB
3 c AA
. . .
. . .
. . .

e eu preciso de um arquivo como esse:

file2 : tantas colunas quanto os números de ID com seus genótipos

SNP Genoa Genob Genoc . . .
1 AB AB AA
2 AB BB AB
3 BB AB AA
. . . .
. . . .
. . . .

text-processing

por LLVerardo 30.05.2017 / 12:04

3 respostas

Tags text-processing

Excluir versão copiada da pasta / proc no unix Podemos habilitar o Networking no modo de usuário único do Linux? [duplicado]

score 1 · Answer 1

Este script não é nem magro nem legível, mas funciona e, ao contrário da solução awk já publicada, também gera a linha de cabeçalho:

sed 'G;s/^SNP.*/SNP/
/^1 /s/ \([^ ]*\) .*SNP[^[:cntrl:]]*/& Geno/
s/^\([0-9]*\) [^ ]*\( [AB]*\)\n\(.*\n [AB ]*\)//
s/^\([0-9]*\) [^ ]*\( [AB]*\)\(\n\)\(.*\)//
h
$!d' file1 > file2

Sem ser um usuário awk , eu acho que você pode expandir a solução awk como esta para gerar a linha de cabeçalho também:

awk '{if ($1==1) h=h" Geno"$2
if ($1!="SNP") g[$1]=g[$1]" "$3}
END {print "SNP"h; for (i in g) print i g[i]}' file1 > file2

score 1 · Answer 2

awk '{g[$1] = g[$1] " " $3}
     END {for (i in g) print i g[i]}' < file1 > file2

Ou para preservar a ordem:

awk '! ($1 in g) {snp[n++] = $1}
     {g[$1] = g[$1] " " $3}
     END {for (i = 0; i < n; i++) print snp[i] g[snp[i]]}' < file1 > file2

Para incluir o cabeçalho "SNP Genoa Genob ...":

awk 'NR == 1 {header = $1; prefix = $3; next}
     first == "" {first = "" $1}
     $1 == first {header = header " " prefix $2}
     ! ($1 in g) {snp[n++] = $1}
     {g[$1] = g[$1] " " $3}
     END {
       print header
       for (i = 0; i < n; i++) print snp[i] g[snp[i]]
     }' < file1 > file2

score 0 · Answer 3

perl -lane '
   next if $. == 1;                                     # skip header
   $A[@A] = $F[1] if /^1\h/;                            # populate new header
   push @{$h{$F[0]}}, $F[2]}{$,="\t";                   # OFS = tab
   print q/SNP/, map { "Geno$_" } @A;                   # new header print
   print $_, @{$h{$_}} for sort { $a <=> $b } keys %h;  # result
' gene.data

Aqui armazene o terceiro campo $F[2] em um AoA (array_of_array). No final, classificamos as chaves de hash numericamente e imprimimos os dados.

sed -e '
   1d; # monospace lines
   s/[[:blank:]]\{1,\}/\t/g;s/^[[:blank:]]*//;s/[[:blank:]]*$//
   H;g
   #  1   2                            3                     4
   s/\(\n\(.*\n\)\{0,1\}\)1[[:blank:]]\([^[:space:]]\{1,\}\)\([[:blank:]][^[:space:]]\{1,\}\)$/\tGeno\n1/
   /\(\n[^[:space:]]\{1,\}[[:blank:]]\)[^[:space:]]\{1,\}[[:blank:]]\([^[:space:]]\{1,\}\)$/s///
   y/\n_/_\n/
   s/_\([0-9]\{1,\}\)\([^_]*\)_\(.*_\)\{0,1\}\([[:blank:]][^_]*\)/__/
   y/\n_/_\n/
   h;$!d
   s/\n*$//
   s/\n\(\n\)//
   s/^[[:blank:]]/SNP&/
' gene.data

Resultado

SNP     Genoa   Genob   Genoc
1       AB      AB      AA
2       AB      BB      AB
3       BB      AB      AA