Eu tenho esse banco de dados de genes completamente confuso com valores extra não-alfanuméricos. Isso aconteceu como uma espécie de criptografia para os dados que foram feitos incorretamente e não sei como limpá-los. Eu tentei sed e awk , m...
Se um arquivo de dados se parece com:
snp200 snp1 snp100 snp32 1 1 0 2 0 0 0 2 2 2 2 1...
como posso quebrar a linha quando snp .. terminar e usá-los como nomes de colunas e depois dividir o resto dos dígitos igualmente (o número total de...
Eu tenho um arquivo .tsv ( batch_1.catalog.tags.tsv ) consistindo de 1.965.056 linhas de 14 colunas . Eu quero dividir alguns deles em duas linhas .
A primeira linha : começa com um sinal maior que (>) seguido por 8 das 14 colunas...
Eu tenho um grande arquivo GTF , como abaixo:
# ./stringtie -p 4 -G /home/humangenome_hg19/homo_gtf_file.gtf -o strAD1_as/transcripts.gtf -l strAD1 /home/software/star-2.5.2b/bin/Linux_x86_64/mapA1Aligned.sortedByCoord.out.bam...
Eu tenho um arquivo com o seguinte formato
>M03117:162:000000000-ATLWF:1:1114:22047:12565:307
TCCGAAAGT-ACAACGTGT
>M03117:162:000000000-ATLWF:1:2104:9367:8166:307
TTCGAAAGTT-GGTGAGGTGTGGG
>M03117:162:000000000-ATLWF:1:1119:11492:8271...
Eu gostaria de separar os nomes dos genes que foram unidos por traço. Eu gostaria de substituir por guias.
Meu arquivo de entrada é:
Cedr3g0570.1_XP_019283.1
Cedr4g7930.2_XP_019241.1
Cedr5g005170.1_C0LGS3.1
Cedr7g0290.5_XP_01921.1
CT35v5_c...
Estou tentando configurar um loop para executar um processo em pares de arquivos. Os nomes dos arquivos se parecem com isso
36_002_CGATGT_L001_R1_005.fastq.gz
36_002_CGATGT_L001_R2_005.fastq.gz
36_002_CGATGT_L001_R1_002.fastq.gz
36_002_CGAT...
Estou tentando analisar um arquivo grande em que cada duas linhas consecutivas têm o mesmo tamanho (o texto é completamente diferente). Eu procurei e meu primeiro post aqui. Eu encontrei um script e tentei modificá-lo, mas sem alegria. Arquivo é...
Eu tenho um arquivo chamado snp_data contendo dados de cromossomo SNP (Single-Nucleotide Polymorphism) . Este é um arquivo CSV de 3 colunas delimitado por espaço em branco que possui o seguinte formato:
user@host:~$ cat snp_data
snp_id...