Como posso selecionar mensagens no mutt com base no uso do conjunto de caracteres?

1

Estou tentando marcar todas as mensagens que usam caracteres chineses ou caracteres em russo (russo) para exclusão, pois, para mim, elas são spam.

    
por dbkeys 08.10.2014 / 16:52

1 resposta

2

Você pode filtrar a codificação foo com: ~h^content-type:.*foo

No entanto, isso é bastante limitado. Primeiro, mensagens usando caracteres específicos (caracteres chineses, cirílico ...) podem ser codificadas em UTF-8. Além disso, para mensagens que possuem anexos, a codificação é especificada em cabeçalhos de anexos MIME e, do ponto de vista dos padrões de Mutt, esse é o corpo; você ainda pode usar ~Bfoo , mas será lento e você pode ter falsos positivos (você não pode incluir content-type porque os cabeçalhos de anexos podem estar em várias linhas do corpo).

Pode haver ferramentas externas que possam identificar o script, mas isso não está mais relacionado ao Mutt ...

Se isso é para filtragem de spam, os filtros bayesianos podem ser bons para esse tipo de coisa (sem precisar saber qual script é).

Você também pode filtrar a presença de alguns caracteres pertencentes a um script específico: consulte Use expressões regulares para combinar com QUALQUER caractere chinês na codificação utf-8 . Isso não funciona no Mutt ainda (talvez no futuro), mas ferramentas externas podem ser usadas nesse meio tempo.

Também é possível filtrar sem decodificar primeiro (isso é mais rápido). Por exemplo, eu atualmente filtro alguns spams russos no postfix com o seguinte regex pcre (case sensitive):

/^Subject:\s*"?=\?[Uu][Tt][Ff]-8\?[Bb]\?(0[J-Z]|(KN|W9)[C-R])/i
    
por 08.10.2014 / 18:40