Data Mining

 

Sommaire

 
       Segmentation
       Recherche d'associations
     Classification & Prédiction
 
Les étapes d'une étude de data mining

 

1- Détermination des objectifs & Inventaire des données existantes

  Cette étape est déterminante pour le reste de l'étude. Par exemple, dans le cas du marketing, il faudra définir la population cible, l'unité statistique étudiée (La personne, le foyer...) planifier le projet, prévoir l'utilisation des informations extraites et des modèles produits et spécifier les résultats attendus.

   L'inventaire des données consiste en un recensement des données utiles et accessibles, exploitables, fiables et suffisamment à jour. Ce recensement serait plus facile si le système d'information est composé d'un data warehouse

Remarque

Une variable est toute caractéristique d'une entité (personne, organisation, objet, événement...)qui pourrait être exprimée par une valeur numérique  (mesure) ou codée (attribut). Les valeurs que peut prendre une variable est dite modalité de la variable.

2- Réduction du nombre de dimensions du problème

Une simplification du problème passe par par la réduction du nombre d'individus, le nombre de variables ou le nombre de modalités d'une variable.

La réduction du nombre de variables consiste à:

  • Ignorer certaines variables trop corrélées entre elles et dont la prise en compte simultanée renforcerait trop le poids (sous représentation des paiements par chèques par rapport aux différents paiements par cartes par exemple).

  • Ignorer certaines variables dont l'élimination est non discriminante par rapport à l'objectif à atteindre.

  • Eliminer les variables ayant un taux élevé de valeurs manquantes (taux maximal de 30% en général)

  • Rassembler plusieurs variables en une seule

3- Préparation des données

    On distingue plusieurs types de données, les qualitatives, quantitatives (continues ou discrètes) et textuelles.

- Les données quantitatives sont soit continues à valeurs dans R ou discrètes à valeurs dans N.

- Les données qualitatives ou catégoriques prennent un ensemble fini de valeurs alphanumériques (représentent des codes et non pas des quantités comme une catégorie socioprofessionnelle ou un numéro d'un département) ou textuelles (des rapports, dépêches...).

- Les données textuelles sont écrites en langage naturels et peuvent être des rapports, des dépêches...

3- Constitution de la base de données

C'est la base à laquelle seront appliqués les algorithmes du data mining pour en extraire les informations recherchées. Elle peut se présenter  sous sous forme d'une table   (DB2, Oracle,SAS,PostgreSql...)

Elle sera constituée et formatée en fonction de l'objectif à atteindre. Cet objectif pourrait être de trouver une fonction f des données de la base. Par exemple, il faut que f(données d'un client) soit la probabilité qu'a le client d'acheter son produit, de rembourser son crédit.

On cherche une fonction telle que:

 Probabilité (variable à expliquer =  x) = f (variables explicatives)

Il faudra séparer les périodes d'observations des variables explicatives de celle des la variable à expliquer, sans quoi les valeurs des variables  explicatives seront la conséquence et, non pas la cause de la valeur de la variable à expliquer.  

4- L'échantillonnage

       L'échantillonnage est une étape incontournable du data mining surtout pour la prédiction et la classification. La plupart des algorithmes mettent en oeuvre un échantillon d'apprentissage et un échantillon de test pour la validation du modèle. Un échantillon ne peut se concevoir qu'à condition, d'une part de constituer un échantillon non biaisé et dont les observations peuvent être extrapolé à l'ensemble de la population de données, et , d'autre part de ne pas rechercher des phénomènes trop rares. Il faut savoir que la précision des données obtenues ne croît qu'en fonction de la racine carrée de la taille de l'échantillon.

Il y a 3 types d'échantillonnages:

- L'échantillonnage simple qui consiste à tirer aléatoirement n individus dans une population de taille N. La probabilité est de 1/N pour chaque individu.

- L'échantillonnage systématique qui consiste à tirer régulièrement des individus. Par exemple, si le pas d'échantillonnage est de 1/100, on tire le 1er individu ensuite le 101ème ...

- L'échantillonnage stratifié sert à réaliser une partition de la population. Si on dispose par exemple d'une population d'individus répartie par tranches d'âges, on prend un sous-échatillon par strate puis on les réunit par tranche d'âges pour une population de personnes.

5- Exploration des données

La première étape de toute investigation dans les données est l'examen des statistiques univariées des variable afin de s'assurer que:

  • Leur distribution ne comporte pas d'anomalie (valeurs extrêmes manquantes)

  • Mettre quelques ordre de grandeur en tête qui seront utiles pour la manipulation des échantillons et s'assurer de leur représentativité.

  • Voir comment discrétiser les variables continues.

Dans un second temps, les statistiques bivariées détectent:

  • Les relations entre la variable "cible" et les éventuelles variables explicatives de façon à éliminer les variables sans aucune influence sur la variable cible.

  • Les liaisons entre les variables explicatives, qui sont à éviter pour certaines techniques, telles les régressions linéaires et logistiques.    

6- Techniques utilisées

Les techniques utilisées en data mining se répartissent en deux catégories principales:

- Les descriptives (pas de variables privilégiées) qui s'intéressent plutôt aux données en elles mêmes et aux différentes catégories homogènes qu'elles peuvent former.

- Les prédictives (une variable à expliquer) qui creusent plus dans les variables et les relations entre elles.

 

 



Copyright © [Nizar Jegham] 2003/2004 - DEA informatique fondamentale - filière logiciels et réseaux