Imprime a string se estiver presente em duas colunas separadas

Question

Imprime a string se estiver presente em duas colunas separadas

#1 resposta do (3 votos)
#2 resposta do (2 votos)
#3 resposta do (1 votos)
#4 resposta do (1 votos)

1

Eu tenho um arquivo de texto com duas colunas e quero imprimir apenas as cadeias que estão presentes em ambos. Por exemplo:

column1       column2

stringA       stringZ
stringP       stringT
stringZ       stringX
stringE       stringR
stringT       stringG

Resultado esperado:

stringZ
stringT

command-line text-processing

por Manuel 24.07.2017 / 21:19

4 respostas

2

Com solução awk diferente e fácil

awk 'NR==FNR{seencol1[$1]++;next} ($2 in seencol1)' infile.txt infile.txt

saída,

stringZ
stringT

por 25.07.2017 / 16:00

1

Você pode usar comm para comparar 2 arquivos, portanto, primeiro gere um arquivo classificado para cada coluna:

cat filename | cut -f1 | sort > column1
cat filename | cut -f2 | sort > column2

Em seguida, suprima as duas primeiras colunas de comm para exibir apenas as linhas nas quais os dados existem em ambos os arquivos:

comm -12 col1 col2

por 24.07.2017 / 21:35

1

awk 'NF!=1{cola[$1]++; colb[$2]++} END { for (item in cola ) { if( colb[item]>0 ) { print item } }' /path/to/input

por 24.07.2017 / 21:37

Tags command-line text-processing

sort (diferença entre a opção padrão e numérica -n) Como obter contagem de linhas exclusivas em um arquivo?

score 3 · Accepted Answer

Desprezivelmente roubado de @cherdt com algumas melhorias (assume um shell como zsh ou bash com suporte para ksh - como substituição de processo):

f=filename; comm -12 <(cut -f1 < "$f" |sort) <(cut -f2 < "$f" | sort)

Manter o nome do arquivo na variável não ajuda a repeti-lo
Não é necessário gravar em arquivos e comparar. Escrever em arquivos geralmente requer que sejam apagados depois para limpeza. Não faça isso com arquivos enormes. A substituição do processo faz com que pareça que comm está lendo arquivos, enquanto é stdout redirecionando para um fd temporário