Le framework Apache Hadoop

Le système de fichiers HDFS

 






Présentation et influences

HDFS, pour Hadoop Distributed File System, est le système de fichiers permettant de gérer le stockage des données sur les machines d'une architecture Hadoop. Son intéret est de s'abstraire de l'architecture physique de stockage, configurée dans la bibliothèque Hadoop, pour manipuler un système de fichiers distribué, comme si il s'agissait d'un disque dur unique.

L'exécutable Hadoop, comme nous le verrons dans la prochain partie, permet la manipulation du système de fichiers

HDFS comporte presque les même caractéristiques que le système de fichiers GFS de Google car il est basé sur les même principes. La principale différence est le langage de programmation utilisé car si GFS est développé en C++, Hadoop est quant à lui basé sur Java.

Quelques différences sensibles sur les opérations possibles par HDFS et sur son fonctionnement interne font qu'il est légèrement plus performant que GFS et plus adapté au développement d'applications.

 

Principales caractéristiques

Les principales caractéristiques de ce système de fichiers, permettant de montrer son fonctionnement, sont les suivantes :

Il est a noter que de nombreux paramètres de fonctionnement du système de fichiers distribué d'Hadoop sont configurables dans le répertoire conf/ de la bibliothèque Hadoop.

Les machines bénéficiant des rôles de NameNode et de DataNodes sont directement liés à ces caractéristiques dans le cadre du fonctionnement de HDFS.

 

Problématiques traitées

HDFS permet de répondre à certaines problématiques faisant partie des principaux objectfs d'Hadoop.

Il permet d'assurer la robustesse et le maintien du stockage des fichiers au travers de différents mécanismes :

Il assure également une organisation des données efficace via les principes suivants :

Nous allons maintenant voir les différentes commandes qu'utilise l'exécutable hadoop pour manipuler le système de fichiers distribué et exéctuer des tâches mapreduce