Não é uma resposta do linux, mas para esse tipo de coisa eu colocaria os dois arquivos no excel e usaria vlookup e / ou count para compará-los.
Eu tenho dois textos. Um como este:
house structure
bank economy
rose animal
...
E outro texto que contém mais de um "rótulo" de cada palavra:
house structure
bank economy
bank confort
rose plant
...
O que eu preciso é contar se o segundo campo do primeiro texto é o mesmo de UM DOS MUITOS do segundo campo do segundo texto. Por exemplo, a palavra "casa" é uma estrutura no primeiro e também no segundo, portanto, +1. A palavra "banco" do primeiro texto é economia, e também é UM DOS MUITOS no segundo texto, portanto, +1 também. A palavra "rosa" é rotulada como animal no primeiro e não no segundo, então +0.
No final, preciso de vários pontos. Qual é a maneira mais fácil de fazer isso? Obrigado pela ajuda, é um pouco confuso.
Não é uma resposta do linux, mas para esse tipo de coisa eu colocaria os dois arquivos no excel e usaria vlookup e / ou count para compará-los.
Que tal
awk 'NR==FNR {a[$1]=$2; next;} a[$1]==$2' text1 text2
house structure
bank economy
ou se você quiser uma contagem real
awk 'NR==FNR {a[$1]=$2; next;} a[$1]==$2 {c[$1]++} END {for (i in c) print i, c[i]}' text1 text2
house 1
bank 1