Como destacar todas as palavras-chave em um pedaço de texto?

1

Estamos usando uma grande lista de frases comuns de spammer como parte de nosso sistema de filtragem de spam. Quaisquer correspondências no assunto ou no corpo da mensagem de um email fazem com que ele vá direto para nossa quarentena hospedada no Office 365.

Hoje, notei que nossos primeiros falsos positivos foram enviados para a quarentena hospedada. Quero descobrir quais palavras ou frases correspondem a alguma coisa na lista de frases para removê-la da lista, mas não consegui encontrá-la (devido ao grande número de palavras-chave e frases que temos na lista).

Tudo está atualmente em um documento do bloco de notas. Pensei em usar o Beyond Compare, mas não vejo como isso funcionaria nessa situação.

Como posso destacar correspondências entre a mensagem original e a lista de palavras-chave / frases?

    
por Austin ''Danger'' Powers 27.08.2014 / 10:33

1 resposta

1

Se cada frase-chave estiver em uma linha separada, a maneira mais fácil é usar um arquivo em lotes:

@echo off
(for /F "tokens=*" %%i in (keywords.txt) do findstr /C:"%%i" /N /I message.txt) > result.txt

Salve-o como filter.bat e execute a linha de comando. keywords.txt é o nome do arquivo com as palavras-chave, por exemplo,

spammer1
spammer2
mr. spammer3

e message.txt devem conter a mensagem em questão:

Hi, I am spammer2. Give me money

regards,
Mr. spammer3

Depois que o script for executado, os números de linha correspondentes serão exibidos em results.txt :

1:Hi, I am spammer2. Give me money
4:Mr. spammer3
    
por 27.08.2014 / 12:19