Perguntas sobre 'bioinformatics'

3
respostas

Limpeza de um banco de dados de genes poluído por caracteres não numéricos, exceto sinais de mais e menos

Eu tenho esse banco de dados de genes completamente confuso com valores extra não-alfanuméricos. Isso aconteceu como uma espécie de criptografia para os dados que foram feitos incorretamente e não sei como limpá-los. Eu tentei sed e awk , m...
07.10.2018 / 01:40
5
respostas

Como dividir uma enorme linha de caracteres em várias linhas com números iguais de colunas?

Se um arquivo de dados se parece com: snp200 snp1 snp100 snp32 1 1 0 2 0 0 0 2 2 2 2 1... como posso quebrar a linha quando snp .. terminar e usá-los como nomes de colunas e depois dividir o resto dos dígitos igualmente (o número total de...
06.10.2016 / 04:25
2
respostas

Desconstruir uma linha em duas linhas com base em colunas específicas

Eu tenho um arquivo .tsv ( batch_1.catalog.tags.tsv ) consistindo de 1.965.056 linhas de 14 colunas . Eu quero dividir alguns deles em duas linhas . A primeira linha : começa com um sinal maior que (>) seguido por 8 das 14 colunas...
07.05.2017 / 04:34
2
respostas

Extrair dados citados e rotulados de uma determinada coluna

Eu tenho um grande arquivo GTF , como abaixo: # ./stringtie -p 4 -G /home/humangenome_hg19/homo_gtf_file.gtf -o strAD1_as/transcripts.gtf -l strAD1 /home/software/star-2.5.2b/bin/Linux_x86_64/mapA1Aligned.sortedByCoord.out.bam...
13.05.2017 / 09:37
4
respostas

altera e manipula linhas em um arquivo usando o awk

Eu tenho um arquivo com o seguinte formato >M03117:162:000000000-ATLWF:1:1114:22047:12565:307 TCCGAAAGT-ACAACGTGT >M03117:162:000000000-ATLWF:1:2104:9367:8166:307 TTCGAAAGTT-GGTGAGGTGTGGG >M03117:162:000000000-ATLWF:1:1119:11492:8271...
14.07.2017 / 13:52
2
respostas

Como separar os nomes dos genes unidos pelo sublinhado?

Eu gostaria de separar os nomes dos genes que foram unidos por traço. Eu gostaria de substituir por guias. Meu arquivo de entrada é: Cedr3g0570.1_XP_019283.1 Cedr4g7930.2_XP_019241.1 Cedr5g005170.1_C0LGS3.1 Cedr7g0290.5_XP_01921.1 CT35v5_c...
15.02.2017 / 20:32
2
respostas

para loop ao combinar a frente e o verso do nome do arquivo

Estou tentando configurar um loop para executar um processo em pares de arquivos. Os nomes dos arquivos se parecem com isso 36_002_CGATGT_L001_R1_005.fastq.gz 36_002_CGATGT_L001_R2_005.fastq.gz 36_002_CGATGT_L001_R1_002.fastq.gz 36_002_CGAT...
24.02.2015 / 17:21
1
resposta

encontrar as posições inicial e final de um identificador comum

Eu tenho um arquivo parecido com este chrom_pos chrom position BF window_id "Chr01__69500112" 1 69500112 10.1214802 "window_1391" "Chr01__69500129" 1 69500129 -7.59047205 "window_1391" "Chr01__69500156" 1 69500156 8.475337...
11.06.2018 / 19:52
3
respostas

script para analisar o arquivo de duas linhas consecutivas de comprimento desigual

Estou tentando analisar um arquivo grande em que cada duas linhas consecutivas têm o mesmo tamanho (o texto é completamente diferente). Eu procurei e meu primeiro post aqui. Eu encontrei um script e tentei modificá-lo, mas sem alegria. Arquivo é...
04.04.2018 / 20:38
2
respostas

interseção entre dois arquivos (valores no arquivo 1 que se enquadram no intervalo de valores no arquivo 2)

Eu tenho um arquivo chamado snp_data contendo dados de cromossomo SNP (Single-Nucleotide Polymorphism) . Este é um arquivo CSV de 3 colunas delimitado por espaço em branco que possui o seguinte formato: user@host:~$ cat snp_data snp_id...
26.11.2017 / 00:56