Le framework Apache Hadoop
Implémentations et outils basés sur Hadoop
Plusieurs outils et logiciels ayant pour caractéristique le stockage ou le calcul distribué ont été développés en lien avec le framework Hadoop.
Voici quelques unes de ces implémentations :
Domaine du stockage de données

Le système de base de données non-relationnelles distribué HBase utilise le système de fichiers HDFS pour le stockage de données. Sa particularité d'être structuré pour pouvoir gérer de grandes tables de données. Inspirée également des publications de Google sur sa base de données Big Table, elle a pour caractéristique d'être une base de données orientée colonnes.
HBase est aujourd'hui largement utilisé par de nombreuses grandes entreprises, comme Facebook qui l'utilise depuis 2010 en remplacement de Cassandra.
Domaine de l'analyse des données

Hive est un projet visant à assurer l'indexation, l'accès et l'analyse de gros volumes de données. Il permet de fournir une infrastructure de datawarehouse, construite sur la base du framework Hadoop.
Cette implémentation dispose d'un langage de requête particulier, HiveQL, utilisant des tâches MapReduce pour accéder à des données de manière distribuée.
Initialement développé par Facebook, il fait partie aujourd'hui de la fondation Apache et est maintenu par des entreprises comme Netflix et Amazon.

Un autre projet de la fondation Apache, Mahout, a pour objectif de fournir une bibliothèque permettant le développement d'applications distribuées de machine-learning. Cette bibliothèque peut s'interfacer avec des applications Hadoop et fournit de nombreux algorithmes pouvant s'exécuter sur des clusters de machines.
Enfin, le projet Pig, développé chez Yahoo, est une plate-forme de haut niveau permettant de créer des tâches MapReduce avec Hadoop pour l'analyse de big data.
Cet outil utilise son propre langage, Pig Latin, qui fournit une abstraction du framework Hadoop pour créer des jobs de calcul distribués. Ce langage s'apparente au language de requêtes SQL, utilisé dans le domaine des bases de données relationnelles.
Administration de clusters

Dans le cadre de l'administration de clusters et d'applications distribuées, ZooKeeper, permet de configurer les machines physiques et services entrant dans le contexte d'applications construites sur Hadoop. Il s'agit également d'un projet de la fondation Apache, largement utilisé par les entreprises gérant de gros volumes de données.

Le projet Chukwa, construit également sur Hadoop, permet l'analyse et le monitoring des tâches MapReduce. Celui-ci est principalement utilisé pour l'analyse de logs collectés via des plate-formes Web.
Distribution Unix

Cloudera est une start-up de la Silicon Valley, fondée par Jeff Hammerbach, ancien de chez Facebook ainsi que des ingénieurs de chez Yahoo ayant travaillé dans le domaine du distribué sur les projets Nutch et Hadoop.
Depuis 2011, elle fournit une distribution basée sur Unix, Cloudera CDH, embarquant la version 1.0 de la bibliothèque Hadoop. Les intérets de cette distribution sont de pouvoir déployer rapidement Hadoop sur des machines (via le réseau), de manière homogène, ce qui simplifie et accélère la configuration et la mise en place de clusters de machines dans les entreprises.