Eu tenho vários domínios de e-mail com todos os recursos. De volta ao dia, isso foi uma boa ideia, e agora é tarde demais para mudar para meus amigos e familiares.
Eu não retiro, apenas atendo domínios de entrada. Essas mensagens recebidas são então encaminhadas usando as regras de aliases de email que cada usuário configura localmente. Estou recebendo e-mail e encaminhando para caixas de entrada do usuário no Gmail usando o postfix. Para ter certeza de filtrar mais de 90% do spam, executo o spamassassin com atualização automática, além de duas listas de bloqueio da RBL e registros SPF. Bons e-mails chegam ao Google, o que é ótimo!
Um e-mail incorreto que ainda passa pela rede acaba com uma recusa temporária de 421 do Google. Normalmente, o Google dirá "isso é spam" ou "isso contém links inválidos" na mensagem de rejeição, o que é bom até certo ponto, mas eu não leio os registros a cada hora e verifico todas as mensagens.
Atualmente, executo um comando que libera a fila adiada uma vez por dia, para que eu não tente novamente o mesmo spam com muita frequência. Isso é um pouco frágil, porque uma única mensagem que chega logo antes do flush e, em seguida, é adiada uma vez por algum motivo técnico (tempo limite TCP etc) também seria excluída sem entrega. Não é ótimo!
Então, como posso treinar meu spanassassin com base nas mensagens recebidas do Google? Por enquanto, estou pensando em algo que acorde a cada 10 minutos, corra o arquivo mail.log e procure por 421 mensagens, extraia o ID da mensagem usando regex, execute o postcat nessa mensagem e o alimente para sa-learn para treinamento.
Primeiro: algo assim já está disponível? Não consigo encontrar nada óbvio pesquisando "spamassassin aprender com gmail" ou similar.
Segundo: Você pode encontrar alguma coisa errada, falta de suposição, etc, no meu raciocínio acima que eu deveria corrigir?
Tags postfix