Analisando os cabeçalhos do arquivo de sequência

1

Eu tenho um arquivo de múltiplas seqüências como

>abc|d017961
sequence1......

>cdf|rhtdm9
sequence2......

>ijm|smthr12
sequence3......

>abc|d011wejr
sequence4......

>stg|eethwe77
sequence5......

Eu quero editar o arquivo e quero o arquivo de resultado como

>abc_ABC__d017961
sequence1......

>cdf_CDF__rhtdm9
sequence2......

>ijm_IJM__smthr12
sequence3......

>abc_ABC__d011wejr
sequence4......

>stg_STG__eethwe77
sequence5......
    
por sam 25.09.2013 / 13:15

1 resposta

4

Com o GNU sed :

sed 's/>\([^|]*\)|/>_\U__/'

O mesmo com perl :

perl -pe's/>(.*?)\|/>$1_\U$1__/'
    
por 25.09.2013 / 13:24