reaprendizagem bayes autolearned spam quando mails já processados por troca

Question

reaprendizagem bayes autolearned spam quando mails já processados por troca

#1 resposta do (2 votos)

1

Estou usando o postfix com amavis e spamassassin para filtrar o spam antes de transmitir tudo para um servidor Exchange. Regularmente eu recebia e-mails que não eram pegos pelo spamassassin, e, pior ainda, eles eram autodidata como presunto.

Então, comecei a coletá-las e as exportei em texto sem formatação e quero treinar novamente esses e-mails, marcando-os como spam.

Pelo que li até agora, você não precisa especificar nada em que deseja "treinar" um e-mail. Você deve executar apenas com --spam e deve esquecer o email como presunto e treiná-lo como spam.

Mas observar sa-learn --dump magic mostra que ele mantém a entrada de presa de aprendizado automático e a adiciona ao spam.

Minha ideia é que o Exchange de alguma forma editou os e-mails para que, ao exportar e colocá-lo de volta no servidor de postfix, não seja o mesmo e-mail que antes. Pode ser este o caso? E se assim for, existe uma maneira de fazer o que eu planejei fazer, por exemplo, removendo alguns cabeçalhos?

postfix spamassassin exchange spam spam-filter

por Jens 25.04.2015 / 18:12

1 resposta

Tags postfix spamassassin exchange spam spam-filter

Conectando uma unidade de LAN à instância de VM do Windows 2008/2012 no Google / AWS / Azure Obtenha valor do hiera hash em Puppet

score 2 · Accepted Answer

Quando você reaprende SpamAssassin que uma mensagem deve ser spam, ela deve passar a mensagem do spam para spam ou spam para ham. O problema é que o SpamAssassin aprende sobre a mensagem em seu host de retransmissão, mas quando ela é encaminhada para o seu servidor Exchange, os cabeçalhos mudam desde a adição de uma linha Recebida. Você pode tentar adicionando o seguinte à sua configuração do SpamAssassin:

bayes_ignore_header Received

Isso faria com que o SpamAssassin ignorasse os cabeçalhos Recebidos ao usar a filtragem Bayesiana. Pessoalmente, eu não sou realmente a favor disso, pois restringe o filtro Bayesiano que ele vê e o que eu posso usar para determinar se algo é spam ou spam.

Sobre ativar o autolearning é algo que você pode querer reconsiderar. Na maioria dos casos, isso irá poluir o seu banco de dados, já que mais mensagens de spam e spam serão erroneamente marcadas. Se você quiser treinar seu banco de dados com as últimas mensagens de spam e spam, é aconselhável configurar uma conta de spam e spam que receba mensagens confiáveis que possam ser marcadas como spam ou spam e aprender tudo a cada X horas / minutos. Mas isso é uma configuração mais difícil que requer algum tempo antes de funcionar corretamente.