Entrepot de Donnees
Architecture Technique
Shema general
Ce schéma représente l'architecture générale du datawarehouse :
Illustration 3: Architecture générale (source
: J Detroyes, supinfo)
Alimentation
L'alimentation des données à partir des bases de production est une phase primordiale
d'un datawarehouse. Des outils logiciels sont alors nécessaires pour
intégrer les données dans le datawharehouse. On parle d'ELT (Extract,
Transform, Load). Les phases de l'alimentation d'un datawarehouse sont les suivantes
:
Découverte des données : Il s'agit d'identifier dans les systèmes
sources les données à importer dans le datawarehouse. Il faut
prendre les données les plus judicieuses. Un mauvais choix peut considérablement
compliquer les phases suivantes de l'alimentation.
Extraction des données : Il s'agit de collecter les données utiles
dans les systèmes de production. Il faut identifier les données
ayant été modifiées afin d'importer le minimum de données
dans le datawarehouse.
Transformation des données : Il faut rendre les données cohérentes
avec la structure du datawarehouse. On d'applique alors des filtres sur les
données. Il peut être nécessaire de convertir le format
des données (EBCDIC vers ASCII par exemple) ou d'harmoniser les formats
de dates (jj/mm/aaaa). Il faut également associer les champs source avec
les champs cibles. Un champ source « adresse » pourra
ainsi par exemple être décomposé en « numéro »,
« rue », « code postal » , « ville »
ou l'inverse. Enfin des données des systèmes de production doivent
être agrégées ou calculées avant leur chargement.
Illustration 4: Intégration des données (source
: D Donsez, Université Joseph Fournier)
Chargement des données : C'est la dernière phase de l'alimentation
d'un datawarehouse. Il s'agit d'insérer les données au sein du
datawarehouse. C'est une phase délicate car les quantités de données
sont souvent très importantes.