Barracuda Spam Filtering e Aprendizagem Bayesiana

2

Me deparei com as práticas recomendadas do link do Estas recomendações sugerem manter amostras de Aprendizagem Bayesiana de boa qualidade em um nível estático de poucas centenas de e-mails de cada tipo (e-mails válidos e spam conhecido).

Aqui está a minha pergunta - como tal configuração lida com 'períodos sazonais de spam'? O que quero dizer aqui são e-mails de spam relacionados aos eventos mundiais, por exemplo, e-mails relacionados a Barack Obama e eleições presidenciais ou tumultos no Egito. Percebemos que durante esses eventos, uma porção notável de spam que capturamos com nossa configuração restrita tinha algumas referências aos eventos.

Agora, se continuarmos adicionando esses exemplos de spam sazonais, teremos milhares de e-mails nas amostras de spam.

Devo acrescentar que nossos servidores de e-mail recebem dezenas de milhares de e-mails todos os dias.

Qual seria a melhor maneira de lidar com situações mencionadas?

Aqui está o que estamos usando (caso isso seja importante):

  • Firmware v3.5.12.025 (2009-09-03 19:21:07)
  • Modelo: 600

Muito obrigado, Luke

    
por Luke G 15.01.2013 / 12:25

2 respostas

2

POR FAVOR, atualize o firmware e a revisão do SO do seu Barracuda Spam Filter !! (supondo que você tenha uma assinatura ativa)

Você está perdendo recursos. Houve Bugs HUGE que foram resolvidos desde o firmware da era de 2009 que você tem agora. O nível de revisão atual é versão 5.1.x.

AstendênciasdeSPAMsazonaistambémseriamrefletidasno banco de dados BarracudaCentral , que deve ser a primeira linha de defesa em sua unidade de Filtro de Spam. Você não precisa ajustar ou modificar seus limites para acomodar eventos mundiais.

Eu não tentaria aprender cada parte do email que entra. Eu mantenho meus bancos de dados Bayesianos para instalações de grandes clientes pequenos ... talvez 300-400 exemplos de SPAM e HAM. Isso é tudo que você realmente precisa. Caso contrário, você pode estar envenenando o banco de dados. Nota: Você quer mais SPAM do que HAM, como no exemplo abaixo:

    
por 15.01.2013 / 15:23
2

As unidades de barracuda são baseadas no SpamAssassin (não exatamente o mesmo, mas com base em ...). Eu nunca encontrei nenhum valor significativo em manter amostras antigas de spam para o filtro bayesiano no SA. Os spammers estão, sem dúvida, "aprendendo", o spam não parece o mesmo de um ano atrás.

É uma boa idéia manter um pouco de presunto, especialmente se você estiver em uma indústria financeira, farmacêutica, médica ou similar, onde seu presunto se parece muito com spam. O filtro bayesiano fará um trabalho muito melhor nesses casos, se você tiver alguns exemplos de ambos (novamente, usando exemplos que são atuais) ... funciona para mim.

    
por 15.01.2013 / 15:11