Ferramentas como Sophos, WatchGuard ou IronPort coletam as estatísticas dos clientes e constroem o conjunto generalizado de tokens bayesianos distribuídos entre os clientes. A filtragem de Bayes é uma arma definitiva, mas precisa de uma atualização pesada contínua.
O sistema autônomo com pequena quantidade de e-mail é o pior caso de bayesianos, já que as estatísticas são muito pequenas para treinamento. Um resultado relativamente bom pode ser alcançado se não houver menos de 500 mensagens recebidas por dia.
- Primeiro, todas as mensagens devem ser testadas quanto à conformidade básica com RFC. Se o host de envio não tiver nenhum registro DNS reverso ou tiver ignorado o HELO, ou então - ele pode ser qualificado como spam
- Em segundo lugar, verificamos o nome do host de envio em relação à nossa lista negra (descrita abaixo).
Todas as mensagens capturadas por esses dois estágios são passadas para o bayesiano para aprendizado. Nenhuma mensagem deve ser descartada ou rejeitada. Se é presunto, deve ser entregue. Se for spam, deve treinar nosso filtro bayesiano.
- Terceiro, todas as mensagens não capturadas pelos estágios 1 e 2 são avaliadas por bayesian. Eu prefiro o Spamassassin para que essas mensagens sejam avaliadas não apenas pelo bayesiano, mas também pelo grande conjunto de eurísticas.
Toda mensagem passada com sucesso pelos três estágios é entregue na caixa de correio do usuário. Claro que há probabilidades dos falsos positivos e falsos negativos. Mas os usuários podem interagir com o sistema de mensagens de e-mail marcando mensagens como spam / spam ao seu desejo. Cada mensagem marcada é passada para o aprendizado bayesiano.
Semanalmente ou mensalmente, o postmaster deve inspecionar os registros. Todo o host de envio deve ser variado pelo número de spam recebido. Top-10 é um bom candidato para ser adicionado à lista negra. A lista negra é apenas uma lista de hosts que conhecemos como spammers puros. Todas as mensagens desses hosts devem ser passadas para o aprendizado bayesiano imediatamente.
Quanto mais spam for enviado para essa configuração, melhor será filtrado. A única interação necessária do postmaster é atualizar a lista negra regularmente. Após alguns meses de treinamento, essa configuração não passará de mais de 1 falso negativo por 3000 a 5000 mensagens recebidas.