Processando itens com SpamAssassin e sa-learn

1

Eu tenho trabalhado para colocar o SpamAssassin em funcionamento por algum tempo e estou bem perto de terminar. No entanto, há uma última coisa que está se desfazendo de mim que eu não consigo descobrir. Eu pesquisei um pouco, mas não consegui encontrar uma resposta que eu ache que seja conclusiva, então eu só quero um pouco de clareza para que eu possa dormir melhor à noite.

Li que o SpamAssassin precisa de pelo menos 200 mensagens, de preferência 1000, para realizar um trabalho eficaz de filtragem bayesiana. Eu tenho alimentado spam (pelo menos eu acho), emitindo o seguinte comando:

sa-learn --showdots --mbox --spam spamfolder

Até onde eu sei, está sendo processado pelo SpamAssassin. Então eu corro:

sa-learn --dump magic

e obtenha a seguinte saída:

bruticus@bruticus:~$ sa-learn --dump magic
0.000          0          3          0  non-token data: bayes db version
0.000          0        306          0  non-token data: nspam
0.000          0        210          0  non-token data: nham
0.000          0      68430          0  non-token data: ntokens
0.000          0 1318421928          0  non-token data: oldest atime
0.000          0 1319141693          0  non-token data: newest atime
0.000          0 1319142287          0  non-token data: last journal sync atime
0.000          0 1319142287          0  non-token data: last expiry atime
0.000          0          0          0  non-token data: last expire atime delta
0.000          0          0          0  non-token data: last expire reduction count

Os itens da coluna nspam e nham são indicativos da quantidade real de aprendizado e mensagens que o SpamAssassin está usando para sua análise bayesiana?

Preciso colocar esses dois conjuntos de números nos 1.000s para fazer com que o SpamAssassin comece realmente a fazer seu trabalho ou como sei quando eu já o enviei o suficiente para começar a trabalhar corretamente?

    
por jmreicha 20.10.2011 / 23:16

1 resposta

4

Você sempre precisa de amostras de Ham Spam e . Ao alimentar apenas o Spam, o SpamAssassin se recusa a ativar o filtro de spam bayesiano.

Ao emitir um spamassassin -D < /path/to/a/complete.mail , você pode verificar se o filtro bayesiano está ativado ou não (em algum lugar de todas as mensagens de depuração).

Espero que você não tenha treinado o SpamAssassin com o antigo Spam (meses de idade). Ele só funcionará bem se você usou o Spam recente que você (pessoalmente ou como empresa) obteve no passado. Se você não tem amostras de Ham ou Spam agora, é melhor definir o SA como autolearn. Então o filtro é treinado ao longo do tempo. Isso leva mais tempo e você não pode ver o benefício agora, mas o resultado vai te impressionar no final.

Sim, seus números mostram as mensagens aprendidas "atuais". Se esses números forem maiores que 200, você terá terminado. Tudo acima apenas o torna "mais seguro", como em "mais válido" ou "preciso". Com a aprendizagem automática, esses números aumentarão com o tempo e também diminuirão, à medida que as estatísticas de emails antigos forem eliminadas com o tempo.

    
por 21.10.2011 / 01:34