Data Mining

Sommaire

 
 
Méthodes prédictives

    On distingue deux grandes techniques prédictives du data mining, la classification et la prédiction dont le rôle est d'estimer la valeur d'une variable dite cible en fonction de la valeur d'un certain nombres d'autres variables dites indépendantes. Ce qui les distingue est que dans la première la variable est catégorique et continue dans la deuxième.

 

La classification ou la prédiction se déroulent en 4 étapes suivant les techniques inductives

       1- Une étape d'apprentissage, effectuée avec un échantillon d'individu à      classement connu.

       2- Une étape de test, pour vérifier le modèle obtenu par apprentissage en  l'appliquant sur un autre échantillon à classement connu. Sélection le meilleur des modèles obtenus.

         3-   Une étape de validation, sur un troisième échantillon à classement connu    pour prévoir la qualité des résultats qui seront obtenus lors de l'application.

        4- Une étape d'application, qui s'élargit à l'application sur l'ensemble de la  population.

  Qualités attendues d'une technique de Classification-Prédiction

  • La précision, la  proportion d'individus mal classés doit être le plus bas.

  • La concision, les règles du modèles doivent réduites en nombre et simples.

  • Les résultats doivent être accessibles et compréhensibles. Quand, elles sont sous forme de conditions explicites sur les variables d'origines, elles doivent être facilement programmables pour un informaticien sous forme de requêtes SQL, par exemple.

  • Insensibilité du modèle aux fluctuations aléatoires et aux valeurs manquante de certaines variables.

 Remarque

 Il y a "sur apprentissage " lors d'une Classification ou une prédiction est que lorsque il existe une corrélation entre une variable explicative et une variable cible qui n'existe qu'à l'intérieur de l'échantillon lui même.

Classification

       C'est l'une des techniques les plus intuitives et des plus répandues dans le data mining, d'une part, parce qu'elle fournit des règles explicites, ce que ne font les réseaux de neurones. D'autre part, elle possède un pouvoir prédictif sur des données hétérogènes ou non linéaires  supérieur à celui des autres techniques.

Principe de l'arbre de décision

Cette technique est employée en classification pour détecter des critères permettent de répartir les individus d'une population en n classes (n = 2).

On commence par choisir la variable qui par ses modalités sépare le mieux les individus de chaque classe de façon à avoir des sous population appelées noeuds contenant chacune le plus possible d'individus d'une même classe. O réitère ensuite l'opération sur chaque nouveau noeud obtenu jusqu'à ce que la séparation des individus ne soit plus possible ou souhaitable.

Par construction, les noeuds terminaux ou feuilles sont majoritairement constitués d'individus d'une même classe.

Ainsi, un individu est affecté à une feuille et donc à une certaine classe avec une certaine probabilité s'il satisfait l'ensemble des règles permettant d'arriver à cette feuille.

L'ensemble des règles de toutes les feuilles constituent le modèle de classification.

Construction de l'arbre

     La première étape consiste en un choix judicieux de la variable qui va séparer les individus de chaque classe: le critère (C1) de choix de la variable et de sa valeur testée dépend de chaque type d'arbre.

Si l'échantillon est constitué de n individus et si les variables explicatives sont toutes numériques, il y a n.m  candidats possibles pour la condition de séparation qui pourrait être Var1<a1, Var1<b1,...., Var1<a2, etc.

 

 

 

 

 

 

 

 

 

 

 

    Une fois la meilleure séparation trouvée, on l'applique, on réitère l'opération sur chaque noeud pour augmenter la discrimination ce qui donne naissance à chaque noeud à un ou plusieurs noeuds fils. Chaque noeud fils donne à son tour naissance à d'autres noeuds et ainsi de suite jusqu'à ce que le processus ne peut plus être répété ou un critère (C2) d'arrêt d'approfondissement de l'arbre est satisfait.

Si chaque noeud possède 2 fils l'arbre est binaire. Le chemin  entre la racine et la feuille est l'expression de la règle pour une classe.

Exemple

Les clients dont l'âge < x, les revenus < y et le nombre de comptes >= z appartiennent dans n% des cas à la classe C. Le pourcentage n est un score d'appartenance à la classe C. La densité d'un noeud st le rapport de son effectif à celui de la population totale.

Le critère d'arrêt dépend comme celui de la séparation (C1), du type et du paramétrage de l'arbre, il combine souvent plusieurs  règles.

  • Qualité de l'arbre suffisante

  • Profondeur maximale de l'arbre atteinte

  • Effectif de chaque noeud est inférieur à une valeur fixée.

  • Nombre maximal de feuilles atteint.

Critère de séparation  (C1)

Les trois principaux critères sont

  • Le critère de chi-2, prévu pour les variables explicatives de type catégorique.

  • Le critère de Gini, pour tout type de variables explicatives.

  • L'entropie, ou l'information, pour tous les types de variables explicatives.

Un des critères les plus utilisés est celui de Gini défini par

où les fi, i de 1 à n sont les fréquences relatives dans le noeud des n classes considérées. Plus, le noeud est pure plus son indice de Gini est bas. Cet indice mesure la probabilité que deux individus choisi aléatoirement dans un noeud appartiennent à 2 classes différentes.

Chaque séparation entre deux noeuds fils doit provoquer la plus grande hausse de pureté donc la plus grande baisse de l'indice de Gini. Ainsi, il faut maximiser:

indice de Gini(avant séparation) - [indice de Gini(fils gauche) + indice de Gini(fils droit)]

L'entropie est calculée comme suit:

 

De même, pus les classes sont uniformément distribuées à l'intérieur d'un noeud, plus l'entropie est élevée. Plus le noeud est pure, plus l'entropie est basse. Il faut donc, maximiser:

entropie(avant séparation) - [entropie(fils gauche) + entropie(fils droit)]

  La complexité de l'élaboration d'un modèle par arbre de décision vient de ce que, si une variable explicative catégorique X a un ensemble E de n valeurs possibles x1,...,xn de X, toute condition de séparation sur cette variable sera de la forme:

X appartient à E' où E' inclus dans E -

 et on voit qu'il y a   conditions de séparation possibles sur cette variable .

Pour une variable explicative continue X, la complexité est liée au ri des valeurs x1....xn, puisque une fois dans l'ordre il suffit de trouver l'indice k tel que la condition X<= moyenne(xk,xk+1) soit la meilleure possible.

Il y a donc n-1 conditions de séparation possibles sur cette variable.

Répartition des individus dans les noeuds

           Une fois l'arbre construit et les critères de division de chaque noeud obtenus, chaque individu peut être affecté à exactement une feuille. Chaque feuille contient une proportion d'individus de chaque classe C. On note pc la proportion d'individus appartenant à la classe C. Alors, la classe C pour laquelle pc est maximale est considérée comme la classe de cette feuille. Les individus de cette feuille sont considérés comme classés dans C avec une probabilité pc et un taux d'erreur 1-pc.

 L'élagage

Il faut raccourcir la longueur des branches d'arbres afin d'éliminer les très petits noeuds sans signification statistique réelle: il faut au moins 20 à 30 individus par noeud. L'élagage permet d'éviter un sur apprentissage.

Inconvénients des arbres de décision

L'arbre détecte les minima locaux et non globaux. Il n'utilise pas simultanément toutes les variables explicatives, mais séquentiellement. 

Le choix d'une division pour un noeud à certain niveau de l'arbre n'est plus  jamais remis en cause.

En conséquence, la modification d'une seule variable, si elle est proche de la racine peut entièrement modifier l'arbre.

La prédiction par arbre de décision

Les arbres de décision relatifs à la classification peuvent être utilisés pour la prédiction. Il suffit de modifier le critère de séparation (C1)

  • La variable cible doit avoir une variance plus faible dans les noeuds fils que dans les noeuds pères.

  • La variable cible doit avoir la moyenne la plus distinctes possible d'un noeud fils à un autre.

 Il faut choisir des fils qui minimisent la variance intra classe et qui maximisent la variance interclasse   

 



Copyright © [Nizar Jegham] 2003/2004 - DEA informatique fondamentale - filière logiciels et réseaux