Como combinar arquivos fastq gunzipped?

2

Como posso combinar arquivos fastq gzipados? Eu tentei isso para ler 1 e ler 2

zcat file_1.fastq.gz file_2.fastq.gz | gzip > combined.fastq.gz 

mas está me dando um número desigual de leituras. Por quê?
Existe alguma outra maneira de fazer isso?

    
por star 02.10.2014 / 22:37

3 respostas

3

Para combinar (concatenar) dois arquivos, use cat :

$ cat file1 file2 >file3

Isso também funciona em arquivos compactados com gzip , bzip2 e xz (e possivelmente outros) devido à maneira como esses formatos de compactação são estruturados.

Por exemplo, digamos que eu tenha dois arquivos Fasta compactados (ou quaisquer dois arquivos compactados que eu gostaria de concatenar):

$ gzcat file1.fa.gz
>seq1
ACTACTACTACTACTACTACTACTACT

$ gzcat file2.fa.gz
>seq1
GATAGATAGATAGATAGATAGATAGATAAAAAAAA

Eu os combino, sem qualquer descompactação ou re-compressão:

$ cat file1.fa.gz file2.fa.gz >file3.fa.gz

O resultado é um arquivo combinado e compactado:

$ gzcat file3.fa.gz
>seq1
ACTACTACTACTACTACTACTACTACT
>seq1
GATAGATAGATAGATAGATAGATAGATAAAAAAAA

Observe que, se isso fornecer dados errados, o erro provavelmente também estará presente em um (ou ambos) de seus arquivos originais.

    
por 18.07.2016 / 07:36
0

Tente:

tar -cvzf fastq.tar.gz /path/to/all/fastqs/*.gz

Ou você está tentando pular o alcatrão?

    
por 02.10.2014 / 23:04
0

Faça isso:

#!/bin/bash
gzip -d $1 && gzip -d $2
1A='sed 's/.gz//g'
2A='sed 's/.gz//g'
cat $2A >> $1A
gzip -c $1A > $1A.gz

Invocação:

$> bash yourNewScriptIMadeForYou file1.gz file2.gz

Explicação

  • A linha 1 declara o ambiente como bash.
  • Linha 2 Invoca o GZIP [-d] para extrair o arquivo "& &" operador significa "FAÇA ISSO e, em seguida, faça isso se isso funcionar".
  • Linha 3-4: transmita o processamento de texto para remover ".gz" pós-correção de entradas de $ 1 e $ 2.
  • Linha 5: Concatene o conteúdo de $ 2A até o final do corpo de $ 1A
  • Linha 6: Crie um novo arquivo GZIP com o mesmo nome da entrada do primeiro arquivo ou se você quiser incluir os dois nomes ...

    gzip -c $ 1A > $ 1A $ 2A.gz

Se você me mostrar sua estrutura de diretório e descrever como você precisa combinar arquivos fastq, posso criar um script melhor que seja perfeitamente adequado às suas necessidades.

    
por 02.10.2014 / 23:30

Tags