1- Détermination des
objectifs &
Inventaire des données
existantes
Cette étape est déterminante pour le reste de l'étude. Par
exemple, dans le cas du marketing, il faudra définir la population
cible, l'unité statistique étudiée (La personne, le foyer...)
planifier le projet, prévoir l'utilisation des informations
extraites et des modèles produits et spécifier les résultats
attendus.
L'inventaire des données consiste en un recensement des données
utiles et accessibles, exploitables, fiables et suffisamment à
jour. Ce recensement serait plus facile si le système
d'information est composé d'un data warehouse
Remarque
Une
variable est toute caractéristique d'une entité (personne,
organisation, objet, événement...)qui pourrait être exprimée par
une valeur numérique (mesure) ou codée (attribut). Les
valeurs que peut prendre une variable est dite modalité de
la variable.
2-
Réduction du nombre de dimensions du problème
Une
simplification du problème passe par par la réduction du nombre
d'individus, le nombre de variables ou le nombre de modalités
d'une variable.
La
réduction du nombre de variables consiste à:
-
Ignorer certaines variables trop corrélées entre elles et dont la
prise en compte simultanée renforcerait trop le poids (sous
représentation des paiements par chèques par rapport aux
différents paiements par cartes par exemple).
-
Ignorer certaines variables dont l'élimination est non
discriminante par rapport à l'objectif à atteindre.
-
Eliminer les variables ayant un taux élevé de valeurs manquantes
(taux maximal de 30% en général)
-
Rassembler plusieurs variables en une seule
3-
Préparation des données
On
distingue plusieurs types de données, les qualitatives,
quantitatives (continues ou discrètes) et textuelles.
-
Les données quantitatives
sont soit continues à valeurs dans R ou discrètes
à valeurs dans N.
- Les
données qualitatives ou catégoriques
prennent un ensemble fini de valeurs alphanumériques
(représentent des codes et non pas des quantités
comme une catégorie socioprofessionnelle ou un numéro
d'un département) ou
textuelles (des rapports, dépêches...).
-
Les données textuelles
sont écrites en langage naturels et peuvent être
des rapports, des dépêches...
3- Constitution de la base de données
C'est la base à laquelle seront appliqués les algorithmes du data
mining pour en extraire les informations recherchées. Elle peut se
présenter sous sous forme d'une table (DB2,
Oracle,SAS,PostgreSql...)
Elle
sera constituée et formatée en fonction de l'objectif à atteindre.
Cet objectif pourrait être de trouver une fonction f des données
de la base. Par exemple, il faut que f(données d'un client) soit la
probabilité qu'a le client d'acheter son produit, de rembourser
son crédit.
On
cherche une fonction telle que:
Probabilité
(variable à expliquer = x) = f (variables explicatives)
Il
faudra séparer les périodes d'observations des variables
explicatives de celle des la variable à expliquer, sans quoi les
valeurs des variables explicatives seront la conséquence et,
non pas la cause de la valeur de la variable à expliquer.
4-
L'échantillonnage
L'échantillonnage
est une étape incontournable du data mining surtout pour
la prédiction et la classification. La plupart des algorithmes
mettent en oeuvre un échantillon d'apprentissage et un
échantillon de test pour la validation du modèle.
Un échantillon ne peut se concevoir qu'à condition,
d'une part de constituer un échantillon non biaisé
et dont les observations peuvent être extrapolé à
l'ensemble de la population de données, et , d'autre part
de ne pas rechercher des phénomènes trop rares.
Il faut savoir que la précision des données obtenues
ne croît qu'en fonction de la racine carrée de la
taille de l'échantillon.
Il
y a 3 types d'échantillonnages:
- L'échantillonnage
simple qui consiste à tirer aléatoirement n
individus dans une population de taille N. La probabilité
est de 1/N pour chaque individu.
- L'échantillonnage
systématique qui consiste à tirer régulièrement
des individus. Par exemple, si le pas d'échantillonnage
est de 1/100, on tire le 1er individu ensuite le 101ème
...
- L'échantillonnage
stratifié sert à réaliser une partition
de la population. Si on dispose par exemple d'une population d'individus
répartie par tranches d'âges, on prend un sous-échatillon
par strate puis on les réunit par tranche d'âges pour
une population de personnes.
5- Exploration des
données
La
première étape de toute investigation dans les données est
l'examen des statistiques univariées des variable afin de
s'assurer que:
-
Leur
distribution ne comporte pas d'anomalie (valeurs extrêmes
manquantes)
-
Mettre quelques ordre de grandeur en tête qui seront utiles pour
la manipulation des échantillons et s'assurer de leur
représentativité.
-
Voir
comment discrétiser les variables continues.
Dans
un second temps, les statistiques bivariées détectent:
-
Les
relations entre la variable "cible" et les éventuelles variables
explicatives de façon à éliminer les variables sans aucune
influence sur la variable cible.
-
Les
liaisons entre les variables explicatives, qui sont à éviter
pour certaines techniques, telles les régressions linéaires et
logistiques.
6-
Techniques utilisées
Les
techniques utilisées en data mining se répartissent
en deux catégories principales:
-
Les
descriptives (pas de variables privilégiées)
qui s'intéressent plutôt aux données en elles
mêmes et aux différentes catégories
homogènes
qu'elles peuvent former.
- Les
prédictives
(une variable à expliquer) qui creusent plus dans les variables et
les relations entre elles.
|