Removendo a segunda seqüência de primers do FASTQ

0

Eu tenho arquivos FASTQ de uma execução de sequenciamento e estou tentando remover a seqüência do segundo primer de indexação com o Unix. Abaixo estão as primeiras linhas do arquivo FASTQ. Estou tentando remover +AGCGCGAT da primeira linha, +AGCTCGCG da quinta linha, etc. Essencialmente, está removendo um sinal de mais e oito caracteres ( A , C , G , T , ou N ) depois disso. Agradecemos antecipadamente por sua ajuda.

@NS500663:433:HGFVKBGX2:1:11101:2828:1039 1:N:0:CGAGTGCT+AGCGCGAT
TCTGGNAACTTGGCTGATTCACTGGCCACGATACCTCATGTCCTCATCCATCAGGATTATCAGCTGCATAGACGG
+
AAAAA#EEEEEEEEEEEEEA/EEEEEE/EE6E/E/E///E//6EE///EA/////E/E/</E/A6/<E////6//
@NS500663:433:HGFVKBGX2:1:11101:8765:1039 1:N:0:ATCACGAT+AGCTCGCG
CATGTNAAATGAAATACATGGGAGACAAATATTTTTACTTATATAGAGTAGTTTCTCAAGGATTTTATAAATACA
+
AAAAA#EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEAEAEAEEEEAEEEEEEEEEEEEEEEEEEE
    
por enhancer_biology 18.02.2017 / 22:40

1 resposta

0
$ sed 's/^\(@.*\)+.*$//' file.fastq >new-file.fastq

Isso removerá a sequência de primers e o + dessas linhas.

Ele encontrará todas as linhas que começam com @ e contêm um sinal + . Ele substituirá a linha apenas pelo bit antes do sinal + e soltará o restante.

A entrada é de file.fastq e a saída vai para new-file.fastq .

O que segue é um pouco mais restritivo, pois combina explicitamente os caracteres que você mencionou após o + :

$ sed 's/^\(@.*\)+[ACGTN]*$//' file.fastq >new-file.fastq
    
por 18.02.2017 / 22:50