Eu tenho uma pasta com mais de 10000 arquivos de texto. Os arquivos podem ser de dois tipos:
Type1: chamado de "DNA"
Formato:
informações do cabeçalho começando com “>”
A linha 2 em diante contém apenas as seguintes letras: "A", "T", "G", "C", "N"
Exemplo:
Nome do arquivo: "ABC123.tab"
>DNA1_example
TGTTGTTGTTGTTGCTGCTGTTGTTGCTGCTGTTGTTGTTGTTGTTGCTGCTGTTGTTGTTGTTGTTGCTGCTGCTGTTGTTGCTGTTGTCTTTGAGGTTGGAGATTAGGACGATTCGGCATGTTGTTGTTCCATGATCCGATCCCAACACCAGGACTAGGCTGTCCTTGCAAACTGATACCGGGACTCGATCTGGCACCAACTCCTGGCTGCGGAGAAAGTTGGGATCCGTGTTGTTGTTGTTGAAAACCTTGTGGAGGTGGTCCTATGCGAGGCGACACTTGAGCCGAATTAAACGGTGATAGCCGAGAAGATGGACCTCCAGGAGCAAAATTATTGCCGTTGTTGTTATTGACAATTTGTGCCTGAGGGCTTTGATTGTAGTTGCCACTATTGGCCGTGCTCAAACTGCTCATCGGACCGTGAGGTGAAAAAGGTGGTTGCATTGGGCGCTGACTGGGGGAGATTTGAGACGCTAGTGGCCCGCTACCTATTGGACTGC
Tipo 2: chamado de "proteína"
Formato:
informações do cabeçalho começando com “>”
A linha 2 em diante contém apenas as seguintes letras: G, A, L, M, F, W, K, Q, E, S, P, V, I, C, A, H, R, N, D, T
Exemplo:
Nome do arquivo: "DEF123.tab"
>Protein1_example
MRCVLCYKNIAGNKLARFCVFSTSILLSLLSTQAQLSIIPQDELLAAEKMVNSSRWRLLD
O que eu gostaria de fazer é:
1) Abra o arquivo.
2) Ignore a linha que começa com ">"
3) Verifique se ele contém um desses alfabetos ocorrendo:
L, M, F, W, K, Q, E, S, P, V, I, A, H, R, D em outras linhas.
4) Se sim, imprima “Protein”, senão imprima “DNA”