Perguntas sobre 'bioinformatics'

2
respostas

Mesclar campos em um arquivo

Eu tenho um arquivo com 7 colunas, um arquivo GFF com regiões cromossômicas.Eu quero recolher as linhas onde REGION="exon" para apenas uma linha no arquivo.A linha tem que ser recolhida com base em regiões sendo sobrepondo uns aos outros. REG...
21.03.2014 / 18:42
1
resposta

Dividindo o conteúdo do arquivo em outros arquivos com base no valor do parâmetro analisado no arquivo [duplicado]

Um arquivo regular contém dados organizados em colunas, separados por espaço. Com base no valor do segundo campo, quero dividir esse arquivo de dados inicial em vários outros arquivos. O arquivo de dados tem 54,242 linhas e 399 colunas. Est...
15.07.2016 / 20:09
2
respostas

Aninhado 'awk' em um loop 'while', analisa dois arquivos linha por linha e compara valores de colunas

Preciso de ajuda com uma combinação de awk & while loop. Eu tenho dois arquivos simples com colunas (os normais são muito grandes), um representando intervalos simples para um ID = 10 (de regiões de codificação (exons), para o cromoss...
20.03.2015 / 11:59
4
respostas

Primeiros dois campos a serem separados por _ e resto dos campos como eles são

#CHROM POS REF ALT ../S101_sorted.bam ../S102_sorted.bam ../S105_sorted.bam ../S107_sorted.bam ../S113_sorted.bam ../S114_sorted.bam ../S115_sorted.bam ../S Aradu.A01 296611 T C...
12.01.2017 / 21:51
4
respostas

Envolvendo um loop em torno de um comando 'sed'-processando muitos arquivos em um único diretório

Eu tenho arquivos de texto contendo muitas linhas, das quais algumas começam com ">" (é um chamado arquivo * .fasta, e o ">" marca o início de um novo contêiner de informações): >header_name1 sequence_info >header_name2 sequence_i...
07.03.2017 / 19:15
2
respostas

Contando um caractere consecutivo específico com sua posição e comprimento de ocorrência

Eu tenho um arquivo de seqüência e quero contar o caractere consecutivo "N" com sua posição de ocorrência e o comprimento Digamos que eu tenha um arquivo chamado mySequence.fasta assim: >sequence-1 ATCGCTAGCATNNNNNNNNNNNNNNCTAGCATCATGCN...
31.08.2017 / 08:06
2
respostas

Série de números em uma determinada posição em várias linhas

Eu tenho um conjunto de dados que se parece com isso: >TRINITY_DN37_c0_g1_i1 len=333 path=[361:0-43 362:44-332] [-1, 361, 362, -2] GCCGCCATCATGGATGCCAGCCGTGTGCAGCCCATCAAGCTTGCCAGAGTCACCAAGGTT >TRINITY_DN37_c0_g2_i1 len=356 path=[359:0-6...
07.04.2017 / 11:11
2
respostas

substitui o padrão entre dois caracteres

Staphylococcus_sp_HMSC14C01-KV792037.1:0.00371647154267842634,Staphylococcus_hominis_VCU122-AHLD01000058.1:0.00124439639436691308)69:0.00227646100249620856,(Staphylococcus_sp_HMSC072E01-KV814990.1:0.00288325234399461859,(((Staphylococcus_hominis...
29.09.2017 / 22:44
2
respostas

Organizando dados tridimensionais com awk / sed / perl

Eu tenho este arquivo (uma matriz esparsa): PC.354 OTU1 6 PC.354 OTU2 1 PC.356 OTU0 4 PC.356 OTU2 7 PC.356 OTU3 3 Eu quero uma saída como essa (matriz densa -classic .biom table): OTU_ID PC.354 PC.355 PC.356 OTU0 0 0 4 OTU1 6...
25.05.2016 / 20:48
2
respostas

ajuda a entender uma fórmula do awk que descompacta arquivos fasta

Acabei de encontrar uma fórmula que pode ser usada para descompactar arquivos fasta. Antes de dar a fórmula, preciso explicar o que é desdobrar um arquivo fasta. Em suma, o formato fasta é assim: >name_of_sequence$ xxxxxxxxxxxxxxxxxxxxxx$...
19.02.2017 / 18:58