wget on the fly para extrair informações específicas do arquivo sem baixar o arquivo inteiro

3

Eu tenho alguns arquivos (que estão no formato .bam (binário)) para baixar de um local. Eu posso baixá-los usando o wget e depois extrair apenas algumas informações específicas deles. Para isso eu uso samtools. O que eu quero saber é, existe uma maneira que eu posso na mosca, extrair o que eu quero do arquivo bam para que eu não precise baixar o arquivo bam inteiro e depois extrair o que eu preciso e, em seguida, excluir o original arquivo bam.

Os comandos usados são

wget link.bam

samtools view -h chr1 link.bam | samtools view -bS > condensed.bam

Isso pode ser feito sem baixar o arquivo bam original inteiro no meu disco rígido. Eu quero fazer isso porque tenho pouco espaço e esses arquivos são enormes.

Espero ouvir de vocês.

Obrigações

    
por user3138373 15.05.2015 / 21:51

1 resposta

0

O método padrão é wget -O- _url_ | samtools view -h chr1 - | samtools view -bS >condensed.bam . Caso você não tenha certeza, isso é um O para saída, não um zero.

Outra etapa de otimização pode ser obtida se você souber quantos bytes são relevantes para o próximo pipeline. Digamos que samtools precise apenas dos primeiros 1352 bytes. Você pode fazer isso usando curl (de acordo com esta pergunta / resposta , wget tem um bug.)

curl -r 0-1352 | ...
    
por 15.05.2015 / 22:09

Tags