Module 1 — Architecture Hadoop et HDFS
- Comprendre le modèle de stockage distribué HDFS (NameNode, DataNode).
- Gérer les fichiers HDFS avec les commandes CLI.
- Configurer la réplication et la tolérance aux pannes.
- Optimiser le stockage avec les formats Parquet, ORC et Avro.
Module 2 — MapReduce et YARN
- Comprendre le paradigme MapReduce et ses cas d'usage.
- Écrire des jobs MapReduce en Python avec Hadoop Streaming.
- Gérer les ressources du cluster avec YARN.
- Monitorer et déboguer les jobs MapReduce.
Module 3 — Hive pour l'analytique SQL
- Créer et gérer des tables Hive internes et externes.
- Écrire des requêtes HiveQL pour l'analytique sur HDFS.
- Optimiser les performances avec le partitionnement et le bucketing.
- Utiliser les formats de compression pour réduire les coûts de stockage.
Module 4 — HBase, Sqoop et Flume
- Stocker et requêter des données NoSQL avec HBase.
- Importer et exporter des données relationnelles avec Sqoop.
- Ingérer des données en temps réel avec Flume.
- Concevoir le bon outil pour chaque cas d'usage Big Data.
Module 5 — Administration et intégration moderne
- Administrer et monitorer un cluster Hadoop avec Ambari.
- Sécuriser le cluster avec Kerberos et Apache Ranger.
- Intégrer Hadoop avec Spark et les pipelines data modernes.
- Projet final : pipeline de traitement big data complet sur cluster Hadoop.
Un programme adapté à votre niveau réel
Ce programme est indicatif. Pour un parcours vraiment sur mesure, commencez par vous entraîner et évaluer votre niveau avec le quiz CodeDuel. Contactez-nous ensuite — notre IA détecte précisément vos gaps et nous construisons un programme adapté à votre niveau réel.