Dado 2 arquivos ordenados - deletar todas as palavras encontradas em outro

Question

Dado 2 arquivos ordenados - deletar todas as palavras encontradas em outro

#1 resposta do (3 votos)

0

No Linux, tenho dois arquivos de texto com palavras UTF8 russas, classificadas com sort -u (na verdade, usei :%sort u no Vim, ele produz os mesmos resultados).

Um dos arquivos dict.txt contém cerca de 700.000 palavras do meu dicionário personalizado. Outro arquivo bad-words.txt contém freqüentemente palavras digitadas incorretamente.

Gostaria de remover todas as palavras encontradas em bad-words.txt de dict.txt .

Eu sei que um script perl usando um hash poderia fazer isso, mas eu estou atrás de um forro do Unix.

Existe um comando Unix (talvez algo usando diff ?) para executar esta tarefa? E eu espero que diff não seja confundido pelo grande número de linhas - porque o programa "Beyond compare" no Windows é ...

diff linux

por Alexander Farber 20.03.2013 / 20:51

1 resposta

Tags diff linux

vnstat: imprime a atividade de rede atual em um arquivo Faça login em um usuário do Windows 7 em um computador remoto para que eu possa fazer o Remote Desktop

score 3 · Answer 1

comm fará isso.

comm -3 dict badwords

ou para classificar em tempo real:

comm -3 <(sort dict-input) <(badwords)