Eu tenho um arquivo com milhares de linhas, assim:
C509.TCGA-78-7159-10A-01D-2036-08.1-C509.TCGA-78-7159-01A-11D-2036-08.1 DNAH7 0 1 1 0 1 1
C509.TCGA-78-7159-10A-01D-2036-08.1-C509.TCGA-78-7159-01A-11D-2036-08.1 IRF5 0 1 1 0 1 1
C509.TCGA-78-7159-10A-01D-2036-08.1-C509.TCGA-78-7159-01A-11D-2036-08.1 ZSCAN25 1 0 0 1 0
Para resumir as colunas das linhas que estão começando com o mesmo ID ( C509.TCGA-78-7159-10A-01D-2036-08.1-C509.TCGA-78-7159-01A-11D-2036-08.1
, por exemplo), preciso corresponder aos IDs e, como você pode ver, é uma string enorme com muita variabilidade. Existe algum comando geral grep
ou awk
para corresponder a esses IDs?