Le framework Apache Hadoop
L'exécutable Hadoop
Utilisation de l'exécutable
Comme nous l'avons dit précédemment, l'exécutable Hadoop permet la manipulation du système de fichiers distribué et le lancement de tâches via un poste client. Il est à noter que celui-ci, comme Hadoop dans sa globalité, ne fonctionne uniquement que sur des systèmes Unix.
Cet exécutable est situé dans le répertoire bin/ de la bibliothèque Hadoop et se lance en ligne de commande. Aucune programme d'interface graphique n'est fournie dans la bibliothèque pour effectuer ce type d'opérations.
Nous accédons à l'exécutable via la commande bin/hadoop. Celle-ci, si aucun argument n'est rentré, renvoie la liste des opérations disponibles.
Opérations d'administration de l'architecture Hadoop
Outre les scripts permettant de lancer les machines de l'architecture Hadoop, l'exécutable Hadoop permet également d'assurer le lancement ou l'arret des machines maîtres / esclaves.
Les commandes bin/hadoop namenode/datanode/jobtracker/tasktracker permettent de lancer, d'arrêter, de vérifier le statut... des machines de l'architecture.
Opérations sur le système de fichiers
La commande bin/hadoop fs [command_options] permet de manipuler le système de fichiers hadoop. Ne nombreuses options permettent l'exécution des commandes ls, rm, cp, etc... afin d'accéder au système de fichiers distribué et l'administrer à distance.
La commande bin/hadoop fsck permet de lancer un utilitaire de vérification du système de fichiers distribué.
Opérations relatives aux tâches MapReduce
La commande bin/hadoop jar [jar_file] mainClass [args] permet lancer une tâche MapReduce sur le cluster Hadoop au format Jar. Cette tâche utilisant le framework Java Hadoop contient les fonctions map et reduce définissant les opérations du calcul à effectuer
La commande bin/hadoop job [-submit, -status, -kill...] permet de programmer et de gérer des jobs MapReduce