Comando para pular o processo se o arquivo existir

1

Eu tenho usado um loop for para executar um pipeline para vários arquivos, mas infelizmente o terminal congelou no meio do caminho. Eu gostaria de executar o pipeline novamente, mas por causa do tempo eu gostaria de pular os diretórios que já tem os arquivos de saída criados. Basicamente aninhe uma instrução if - se o arquivo de saída do arquivo existir, ignore se não executar o pipeline. Isso é possível?

for f in /Volumes/My\ Passport/Documents/Projects/untitled\ folder\ 2/untitled\ folder\ 3/untitled\ folder\ 2/untitled\ folder/*/*_1.fastq; do
subdir="${f%/*}"
pushd "$subdir" &>/dev/null
file1="${f##*/}"
file2="${file1%_1.fastq}_2.fastq"
adapter="/Volumes/My\ Passport/Documents/adapters.fa"
reference="/Volumes/My\ Passport/Documents/ucsc_hg19/ucsc.hg19.fasta"
dbSNP="/Volumes/My\ Passport/Documents/ucsc_hg19/dbsnp_138.hg19"
COSMIC="/Volumes/My\ Passport/Documents/ucsc_hg19/CosmicCodingMuts.vcf"
interval="/Volumes/My\ Passport/Documents/plist.bed"
sjdb="/Volumes/My\ Passport/Documents/ucsc_hg19/ucsc.hg19.gtf"
file3="${file1%_1.fastq}_1_trimmed.fastq"
file4="${file2%_2.fastq}_2_trimmed.fastq"

#preQC (cutadapt -O subtracted, prinseq -min_qual_score 4 -ns_max_p 2 subtracted)
~/Desktop/UTSW/Applications/bbmap/bbduk.sh -Xmx120g in1="${file1}" in2="${file2}" out1="${file1%_1.fastq}_1_trimmed.fastq" out2="${file2%_2.fastq}_2_trimmed.fastq" ref="${adapter}" trimq=10

paste - - - - < "${file3}" | sort -k1,1 -t " " | tr "\t" "\n" > "${file3%_1_trimmed.fastq}_trimmed_sorted_1.fastq"
paste - - - - < "${file4}" | sort -k1,1 -t " " | tr "\t" "\n" > "${file4%_2_trimmed.fastq}_trimmed_sorted_2.fastq"

parallel -j $PARALLEL_TASKS perl ~/UTSW/Applications/prinseq-lite-0.20.4/prinseq-lite.pl -fastq "${file3%_1_trimmed.fastq}_trimmed_sorted_1.fastq" -fastq2 "${file4%_2_trimmed.fastq}_trimmed_sorted_2.fastq" -no_qual_header -trim_right 1 -custom_params "A 75%;T 75%;G 75%;C 75%" min_qual_mean 25 -min_len 40 -out_format 3 -out_good "${f%.*}_QC" -out_bad null -log

done
    
por ozarka 10.02.2016 / 00:47

2 respostas

2

Não sei onde recomendar o teste, mas o comando [ shell e o [[ bash têm testes que podem ser usados desta maneira:

for f in ...
do
    if [[ ! -e "$f" ]]
    then
        # do work here because file $f does not exist
    fi
done

Isso é apenas um exemplo, eu não tenho certeza sobre o trabalho que o seu corpo de loop faz, então talvez o teste deva ir a outro lugar no corpo do loop.

    
por 10.02.2016 / 04:12
2

Em geral, a melhor maneira de testar se você pode abrir um arquivo - seja para entrada ou saída - é simplesmente tentar abri-lo.

Mais especificamente para saída, se você deseja apenas abrir um arquivo para saída se isso criar um novo arquivo, os shells POSIX oferecem a opção shell no-clobber configurável via set , e assim você pode usar isso para testar se a saída existe antes de prosseguir.

Tentar entender seu roteiro atual é um pouco difícil, mas talvez considere:

set -C -- '/Volumes/My Passport/Documents/Projects/untitled folder 2/untitled folder 3/untitled folder 2/untitled folder/'*/*_1.fastq
[ -e "$1" ] &&
for f
do    if    cd -- "${f%/*}" &&
            f=${f##*/} f=${f%1*}
      then  if    command exec \
                      3> "$f"1_trimmed.fastq \
                      4> "$f"2_trimmed.fastq \
                      5> "$f"_trimmed_sorted_1.fastq \
                      6> "$f"_trimmed_sorted_2.fastq
            then  ~/Desktop/UTSW/Applications/bbmap/bbduk.sh -Xmx120g in1="$f"1.fastq in2="$f"2.fastq out1=/dev/fd/3 out2=/dev/fd/4 ref="${adapter}" trimq=10 &&
                  paste - - - - < "$f"1_trimmed.fastq | sort ... | tr >&5 ... &&
                  paste - - - - < "$f"2_trimmed.fastq | sort ... | tr >&6 ... 
            fi
       fi
 done
    
por 10.02.2016 / 04:26