Le framework Apache Hadoop

Présentation générale

La bibliothèque

Le projet Hadoop regroupe plusieurs éléments ayant trait à son fonctionnement.

Lorsque l'on télécharge la version stable de la bibliothèque Hadoop sur le site d'Apache (http://apache.mirrors.multidist.eu/hadoop/common/hadoop-1.0.4/), nous obtenons une archive contenant les éléments suivants :

Une archive JAR, hadoop-core, contenant le framework Java Hadoop permettant le développement d'applications distribuées
Des fichiers de configuration permettant de paramétrer une architecture matérielle qui sera utilisée lors de l'exécution de tâches distribuées
Des exéctuables et des démons permettant de faire fonctionner une architecture Hadoop, selon les différents modes d'utilisation

Le framework Java

Le framework, ou bibliothèque logicielle, est développé en Java et fournit de nombreuses classes permettant la création de tâches de calcul (ou jobs) et la manipulation du système de fichiers distribué.

Le rôle principal de ce framework est de faciliter le développement d'applications de stockage et/ou d'analyse de gros volumes de données.

Les outils

La bibliothèque fournit un ensemble d'outils comprennant principalement l'exécutable Hadoop. Celui-ci permet la manipulation du système de fichiers distribués ainsi que l'exécution de tâches. Le fonctionnement de cet exécutable est expliqué un plus loin sur ce site, dans la partie "L'exécutable Hadoop"

Elle fournit également des scripts permettant de lancer les démons gérant l'architecture matérielle qui va stocker les données et faire tourner les calculs distribués. Ces opérations sont relatives aux deux principaux composants d'Hadoop, HDFS et MapReduce.

Le framework Apache Hadoop

Présentation générale

La bibliothèque

Le framework Java

Les outils

Présentation

Le Framework

Son fonctionnement

Les modes d'utilisation

Implémentations et outils

Conclusion