Eu tenho um problema que está me dando um pouco de dor de cabeça, mas não costuma levar muito como um iniciante.
Eu tenho um arquivo que se parece com isso
ID A1 A2 A3
1 A G A
2 T G A
3 T A G
4 T G A
5 A A G
6 A C A
7 C T G
que tem milhares de linhas de comprimento e é composto de G, C, T, A, onde G complementa C e A complementa T. O que eu estou tentando fazer é procurar uma correspondência para A1 em A2 ou A3 Se houver uma correspondência, então ela deve ser deixada como está e se não houver a mudança de A2 e A3 para seus complementos, ou seja, A = T e G = C e vice-versa.
Assim, a saída seria:
ID A1 A2 A3
1 A G A
2 T C T
3 T T C
4 T C T
5 A A G
6 A C A
7 C A C
Eu achei que poderia fazer isso usando o awk para filtrar IDs correspondentes e inigualáveis usando:
awk '{if($2 != $3 || $2 != $4) print $0}' mergedlist > nonmatchlist
e
awk '{if($2 == $3 || $2 == $4) print $0}' mergedlist > matchlist
mas funcionou apenas para uma variável, isto é, T no primeiro e A no segundo.
Muito obrigado pela sua contribuição.