Descompacte o arquivo .gz quando a ordem da linha é importante

2

Eu estou tentando descompactar arquivos fastq.gz e, em seguida, analisar os dados de seqüenciamento dentro deles. No entanto, a análise posterior depende da preservação da linha (a linha 1 do arquivo compactado deve ser a linha 1 no arquivo descompactado) em ordem nos arquivos descompactados.

Quando eu olho manualmente para os arquivos, parece-me que a ordem das linhas está sendo preservada ao usar o gunzip para descompactar os arquivos fatsq.gz (e eu não esperaria mais nada). No entanto, a análise downstream falha porque o pedido não foi preservado do arquivo original. Estou faltando alguma coisa sobre o processo de descompactação? Obrigado.

Parece que algo como o seguinte está acontecendo.

O sequenciador grava dados em fastq.txt:

line1
line2
line3
lin4

Em seguida, fecha em fastq.gz. Em seguida, descompactei usando gunzip e pareço ter algo como o seguinte, em que a ordem de linha é interrompida:

line2
line1
line4
line3
    
por The Nightman 17.06.2015 / 00:57

0 respostas