Eu estou tentando descompactar arquivos fastq.gz e, em seguida, analisar os dados de seqüenciamento dentro deles. No entanto, a análise posterior depende da preservação da linha (a linha 1 do arquivo compactado deve ser a linha 1 no arquivo descompactado) em ordem nos arquivos descompactados.
Quando eu olho manualmente para os arquivos, parece-me que a ordem das linhas está sendo preservada ao usar o gunzip para descompactar os arquivos fatsq.gz (e eu não esperaria mais nada). No entanto, a análise downstream falha porque o pedido não foi preservado do arquivo original. Estou faltando alguma coisa sobre o processo de descompactação? Obrigado.
Parece que algo como o seguinte está acontecendo.
O sequenciador grava dados em fastq.txt:
line1
line2
line3
lin4
Em seguida, fecha em fastq.gz. Em seguida, descompactei usando gunzip e pareço ter algo como o seguinte, em que a ordem de linha é interrompida:
line2
line1
line4
line3
Tags compression linux