Avancé

Hadoop

Maîtrisez l'écosystème Hadoop pour le stockage et le traitement distribué de données à l'échelle du pétaoctet.

Durée estimée
3 jours — 21h
📊
Niveau
Avancé
🎓
Parcours associé

Objectifs pédagogiques

  • Comprendre l'architecture HDFS et le paradigme MapReduce.
  • Administrer et monitorer un cluster Hadoop.
  • Utiliser l'écosystème Hadoop (Hive, HBase, Sqoop, Flume).
  • Optimiser les performances du cluster.
  • Intégrer Hadoop avec Spark et les outils modernes.

Prérequis

  • Bases Linux maîtrisées (ligne de commande, permissions).
  • Notions SQL et bases Python ou Java.

Programme indicatif

Module 1 — Architecture Hadoop et HDFS
  • Comprendre le modèle de stockage distribué HDFS (NameNode, DataNode).
  • Gérer les fichiers HDFS avec les commandes CLI.
  • Configurer la réplication et la tolérance aux pannes.
  • Optimiser le stockage avec les formats Parquet, ORC et Avro.
Module 2 — MapReduce et YARN
  • Comprendre le paradigme MapReduce et ses cas d'usage.
  • Écrire des jobs MapReduce en Python avec Hadoop Streaming.
  • Gérer les ressources du cluster avec YARN.
  • Monitorer et déboguer les jobs MapReduce.
Module 3 — Hive pour l'analytique SQL
  • Créer et gérer des tables Hive internes et externes.
  • Écrire des requêtes HiveQL pour l'analytique sur HDFS.
  • Optimiser les performances avec le partitionnement et le bucketing.
  • Utiliser les formats de compression pour réduire les coûts de stockage.
Module 4 — HBase, Sqoop et Flume
  • Stocker et requêter des données NoSQL avec HBase.
  • Importer et exporter des données relationnelles avec Sqoop.
  • Ingérer des données en temps réel avec Flume.
  • Concevoir le bon outil pour chaque cas d'usage Big Data.
Module 5 — Administration et intégration moderne
  • Administrer et monitorer un cluster Hadoop avec Ambari.
  • Sécuriser le cluster avec Kerberos et Apache Ranger.
  • Intégrer Hadoop avec Spark et les pipelines data modernes.
  • Projet final : pipeline de traitement big data complet sur cluster Hadoop.
Un programme adapté à votre niveau réel

Ce programme est indicatif. Pour un parcours vraiment sur mesure, commencez par vous entraîner et évaluer votre niveau avec le quiz CodeDuel. Contactez-nous ensuite — notre IA détecte précisément vos gaps et nous construisons un programme adapté à votre niveau réel.

Parcours associé

Cette formation fait partie du parcours Data Engineer.

Voir le parcours complet

Prêt à démarrer ?

Contactez-nous pour construire votre parcours sur mesure.