Qual é a diferença para o spamassassin entre usar sa-learn e não usá-lo?

1

Eu tenho uma pergunta. Se o uso de sa-learn para ensinar spamassassin sobre spam de e-mail e ham, importa? Como se eu não usá-lo porque eu não tenho uma amostra de spam ou ham no meu servidor de email?

    
por jack 27.04.2011 / 09:57

3 respostas

4

sa-learn é geralmente usado para mensagens armazenadas na máquina (no formato mbox ou maildir), e só funciona quando você preenche spam e ham separadamente. Se você for usá-lo, é melhor usá-lo com uma quantidade decente de exemplos de ambos para evitar o viés de filtro.

há um bom documento aqui que passa pelo processo e pelos detalhes, mas requer correio armazenado localmente (em qualquer formato ).

Tendo dito isso, eu uso SA em algumas caixas e nunca uso sa-learn, e ainda faz um bom trabalho. Eu uso uma série de outras técnicas anti-spam que não são baseadas em SA, embora ...

    
por 27.04.2011 / 10:25
4
Concordo com a resposta de Mark Regensberg, mas para ser mais específico: pelo que entendi, sa-learn e os outros elementos bayesianos do SpamAssassin só afetam os testes bayesianos (você pode ver o lista completa atual de testes SA para esclarecimento).

Ou seja, todos os testes baseados em regras funcionam com eficácia total, independentemente de você usar sa-learn ou não. Somente a correspondência das regras BAYES_nn é afetada pelo treinamento personalizado do mecanismo bayesiano com sa-learn --ham e --spam .

Dito isto, alguns desses testes pontuam bastante - a classificação de uma mensagem pode ser afetada por um valor entre -1.9 e +3.8, de acordo com o quão "spam" o mecanismo Bayesiano pensa que é - então eu acho bastante muito valor em dar ao meu motor algum treinamento. Como Mark observa, você precisará arquivar o seu spam e o spam não detectado separadamente para fazer isso.

Em resposta à sua observação para Mark, a "outra" técnica que diminuiu mais o meu spam do que qualquer outra é greylisting , que eliminando o correio "ignorar e esquecer" reduziu o meu spam recebido em mais de 90%. A introdução da filtragem de SPF nos e-mails recebidos foi a segunda mais eficaz, eliminando cerca de 5% dela.

    
por 27.04.2011 / 10:46
2

O SpamAssassin tem algumas técnicas para encontrar spam. Uma delas é sua expressão regular (como notado pela resposta de MadHatter), mas isso não é muito potente hoje em dia. Outro (também apontado por MadHatter) é o SPF, embora eu chame isso de insignificante em sua capacidade de capturar spam não-tratado.

As técnicas mais potentes no SpamAssassin são a detecção bayesiana e pesquisas on-line ( DNSBLs (também conhecidas como "RBLs") e URI DNSBLs , bem como sistemas de hashing como Razor e Pyzor , veja também as páginas wiki do SA para instalando o Razor e instalando o Pyzor ).

Pesquisas on-line são de longe as mais simples; configure-os bem e você está pronto para ir. Eles manterão atualizados os spams que atingem as várias redes de armadilhas de spam (honeypots), mas não protegem você contra raquetes de neve (que são muito rápidas) ou ataques direcionados como spearphishing (que é muito pequeno). / p>

A detecção bayesiana requer manutenção constante; é um sistema de aprendizado de máquina e, portanto, deve ser treinado regularmente sobre o que perdeu (e sobre o que foi capturado de forma inadequada). Quanto mais atenção receber, melhor será.

O SpamAssassin tem um sistema de autoaprendizado que assumirá todos os spams de pontuação muito alta deve ser aprendido como tal e todo o presunto de pontuação muito baixa deve ser similarmente aprendido como presunto. O problema é que é apenas aprender com o que é fácil, e (especialmente para o presunto) pode aprender com mensagens erradas, o que reforçará os erros do SpamAssassin.

Nenhuma implantação de SpamAssassin deve confiar em auto-aprendizado sem treinamento manual adicional. É destinado a complementar o treinamento manual, não substituí-lo. Você deve usar sa-learn (ou spamassassin --report , que também reporta ao Pyzor, ao Razor e ao SpamCop DNSBL).

Você pode aprender mais sobre Bayes no wiki do SpamAssassin .

    
por 07.07.2015 / 01:53