Le framework Apache Hadoop
Conclusion
Intérets de l'utilisation
La principale motivation pour les entreprises d'utiliser un framework comme Hadoop est tout d'abord sa grande capacité de mise à l'échelle. En effet, une application développée sur la base de cette bibliothèque logicielle pourra s'exécuter quelle que soit l'architecture matérielle administrée au sein d'une organisation.
De part sa grande variété d'implémentations et d'outils supportés, l'environnement Hadoop fournit un ensemble de services diversifiés permettant de gérer au mieux une plate-forme de stockage, de calcul et d'analyse de big data. La gestion de gros volumes de données étant devenue aujourd'hui l'un des enjeux principaux pour les grandes entreprises dans le monde du Web.
Enfin, la grande robustesse fournie par ce framework permet d'assurer une très haute disponibilité des services de calcul distribués sur des clusters de machines très importants. Les informations contenues dans les machines de plusieurs datacenters peuvent ainsi être utilisées pour de l'analyse avec le minimum de risques de pannes.
Avantages et limites
Comme nous l'avons vu, l'environnement Hadoop combine deux technologies constituant la force principale de ce framework : HDFS pour le stockage distribué de données et MapReduce pour l'éxécution de tâches de calcul sur ces données. Ces deux technologies, en perpétuelle évolution font du framework Hadoop l'un des outils les plus largement utilisés dans le domaine du distribué.
La version 2.0 alpha d'Hadoop propose ainsi une évolution architecturale majeure, YARN (Yet Another Ressource Negociator) aussi appellée MapReduce v2, qui a pour objectif d'améliorer les performances du rôle de JobTracker dans la gestion de l'exécution des Jobs. Ce rôle est ainsi remplacé par celui de RessourceManager, bénéficiant d'une meilleure statégie de négociation des ressources (machines esclaves) lors de calculs distribués.
Même si la prise en main du framework n'est peut être pas si aisée que cela au premier abord et qu'il est plutot conseillé d'utiliser des outils implémentant directement le framework, celui-ci offrant encore de grandes possibilités de développement de systèmes distribués. Nous avons ainsi pu le voir de part le grand nombre d'utilisateurs et de contributeurs associés à ce projet Apache.