Avancé

Hadoop

Maîtrisez l'écosystème Hadoop pour le stockage et le traitement distribué de données à l'échelle du pétaoctet.

⏱

Durée estimée

3 jours — 21h

📊

Niveau

Avancé

🎓

Parcours associé

Data Engineer

Objectifs pédagogiques

Comprendre l'architecture HDFS et le paradigme MapReduce.
Administrer et monitorer un cluster Hadoop.
Utiliser l'écosystème Hadoop (Hive, HBase, Sqoop, Flume).
Optimiser les performances du cluster.
Intégrer Hadoop avec Spark et les outils modernes.

Prérequis

Bases Linux maîtrisées (ligne de commande, permissions).
Notions SQL et bases Python ou Java.

Programme indicatif

Module 1 — Architecture Hadoop et HDFS

Comprendre le modèle de stockage distribué HDFS (NameNode, DataNode).
Gérer les fichiers HDFS avec les commandes CLI.
Configurer la réplication et la tolérance aux pannes.
Optimiser le stockage avec les formats Parquet, ORC et Avro.

Module 2 — MapReduce et YARN

Comprendre le paradigme MapReduce et ses cas d'usage.
Écrire des jobs MapReduce en Python avec Hadoop Streaming.
Gérer les ressources du cluster avec YARN.
Monitorer et déboguer les jobs MapReduce.

Module 3 — Hive pour l'analytique SQL

Créer et gérer des tables Hive internes et externes.
Écrire des requêtes HiveQL pour l'analytique sur HDFS.
Optimiser les performances avec le partitionnement et le bucketing.
Utiliser les formats de compression pour réduire les coûts de stockage.

Module 4 — HBase, Sqoop et Flume

Stocker et requêter des données NoSQL avec HBase.
Importer et exporter des données relationnelles avec Sqoop.
Ingérer des données en temps réel avec Flume.
Concevoir le bon outil pour chaque cas d'usage Big Data.

Module 5 — Administration et intégration moderne

Administrer et monitorer un cluster Hadoop avec Ambari.
Sécuriser le cluster avec Kerberos et Apache Ranger.
Intégrer Hadoop avec Spark et les pipelines data modernes.
Projet final : pipeline de traitement big data complet sur cluster Hadoop.

Un programme adapté à votre niveau réel

Ce programme est indicatif. Pour un parcours vraiment sur mesure, commencez par vous entraîner et évaluer votre niveau avec le quiz CodeDuel. Contactez-nous ensuite — notre IA détecte précisément vos gaps et nous construisons un programme adapté à votre niveau réel.

S'entraîner sur CodeDuel Demander une évaluation

Parcours associé

Cette formation fait partie du parcours Data Engineer.

Voir le parcours complet

Prêt à démarrer ?

Contactez-nous pour construire votre parcours sur mesure.

Demander un devis Voir toutes les formations