comm fará isso.
comm -3 dict badwords
ou para classificar em tempo real:
comm -3 <(sort dict-input) <(badwords)
No Linux, tenho dois arquivos de texto com palavras UTF8 russas, classificadas com sort -u
(na verdade, usei :%sort u
no Vim, ele produz os mesmos resultados).
Um dos arquivos dict.txt
contém cerca de 700.000 palavras do meu dicionário personalizado. Outro arquivo bad-words.txt
contém freqüentemente palavras digitadas incorretamente.
Gostaria de remover todas as palavras encontradas em bad-words.txt
de dict.txt
.
Eu sei que um script perl usando um hash poderia fazer isso, mas eu estou atrás de um forro do Unix.
Existe um comando Unix (talvez algo usando diff
?) para executar esta tarefa? E eu espero que diff
não seja confundido pelo grande número de linhas - porque o programa "Beyond compare" no Windows é ...
comm fará isso.
comm -3 dict badwords
ou para classificar em tempo real:
comm -3 <(sort dict-input) <(badwords)