Entrepot de Donnees


Architecture Technique

Shema general

Ce schéma représente l'architecture générale du datawarehouse :

Illustration 3: Architecture générale (source : J Detroyes, supinfo)

Alimentation

L'alimentation des données à partir des bases de production est une phase primordiale d'un datawarehouse. Des outils logiciels sont alors nécessaires pour intégrer les données dans le datawharehouse. On parle d'ELT (Extract, Transform, Load). Les phases de l'alimentation d'un datawarehouse sont les suivantes :

Découverte des données : Il s'agit d'identifier dans les systèmes sources les données à importer dans le datawarehouse. Il faut prendre les données les plus judicieuses. Un mauvais choix peut considérablement compliquer les phases suivantes de l'alimentation.

Extraction des données : Il s'agit de collecter les données utiles dans les systèmes de production. Il faut identifier les données ayant été modifiées afin d'importer le minimum de données dans le datawarehouse.

Transformation des données : Il faut rendre les données cohérentes avec la structure du datawarehouse. On d'applique alors des filtres sur les données. Il peut être nécessaire de convertir le format des données (EBCDIC vers ASCII par exemple) ou d'harmoniser les formats de dates (jj/mm/aaaa). Il faut également associer les champs source avec les champs cibles. Un champ source « adresse » pourra ainsi par exemple être décomposé en « numéro », « rue », « code postal » , « ville » ou l'inverse. Enfin des données des systèmes de production doivent être agrégées ou calculées avant leur chargement.


Illustration 4: Intégration des données (source : D Donsez, Université Joseph Fournier)

Chargement des données : C'est la dernière phase de l'alimentation d'un datawarehouse. Il s'agit d'insérer les données au sein du datawarehouse. C'est une phase délicate car les quantités de données sont souvent très importantes.