Anti-Spam

Filtrage statistique (Bayésien)

Type de filtre

Filtre statistique appliqué au contenu (texte).

Description

Utilise la technique dite: "des réseaux bayesiens", décrit dans un article de Paul Graham.

Le filtre calcule des probabilités conditionnelles en fonction des informations observées (situées dans une base de données); chaque mot d'un message est évalué suivant les probabilités qu'il se trouve dans un message défini comme indésirable ou non.

Ce filtre est donc basé sur le théorème de Bayes, dont la formule mathématique est:

Formule

La probabilité qu'un courrier soit un pourriel, compte tenu qu'il contienne certains mots,
est égale à la probabilité de trouver ces mots dans un pourriel multipliée par la probabilité qu'un courrier soit un pourriel,
divisé par la probabilité de trouver ces mots dans un courrier.

Etape 1 : L'apprentissage

Le mécanisme d'apprentissage, permet de personnaliser le filtrage suivant les utilisateurs. L'utilisateur doit indiquer au filtre les courriels qu'il considère comme indésirables. Une probabilité sur la récurrence des mots est définie.

Cette période d'apprentissage n'est généralement pas gérée directement par le MTA, il faut passer par un plugin installé sur le client de messagerie de l'utilisateur, qui stock les informations dans une base de données.

Etape 2 : L'affectation d'un poids

Permet de déterminer la probabilité qu'un courrier soit indésirable, en combinant les probabilités de chaque mot référencé avec l'ensemble des mots du courrier.

Etape 3 : Le marquage

Fixe définitivement le statut du courriel, par rapport à une valeur de référence prédéfinie.

Exemple: Si le poids dépasse 0.8, le courriel est considéré comme un pourriel, et sera marqué dans l'entête (et/ou dans le sujet).

Comparaison d'algorithme

La manière de calculer la probabilité est différente suivant les outils utilisés, puisque chaque outil intègre une variante de l'algorithme du théorème de Bayes.

Algorithme de Bayes natif (ancienne version d'anti-spam)
Algorithme de Bayes évolué (spambayes / spamassasin)
graham robinson
Légende
0 Certain que c'est du HAM
100 Certain que c'est du SPAM

Nous constatons que la fourchette de détection franche (43 - 67) est beaucoup plus resserrée sur les algorithmes récents (graphique de droite).

Avantages du filtre

- Adaptation à l'utilisateur,
- Outils existants très perfectionnés,
- Large base de données pré-établie, d'ou une meilleure détection.

Inconvénients du filtre

- Technique de l'empoisonnement bayesien de plus en plus utilisée, c'est-à-dire, des SPAMs contenant des mots courants.
- Les faux-négatifs peuvent être fréquents.