Module 1 — Architecture Spark et écosystème
- Comprendre le modèle d'exécution distribué (driver, executors, partitions).
- Découvrir l'écosystème Spark : Core, SQL, Streaming, MLlib, GraphX.
- Installer et configurer Spark en local et sur cluster.
- Comprendre les RDDs, DataFrames et Datasets et leurs cas d'usage.
Module 2 — Spark DataFrames et Spark SQL
- Créer et transformer des DataFrames avec PySpark.
- Maîtriser les transformations (filter, select, groupBy, join, window).
- Utiliser Spark SQL pour les requêtes analytiques.
- Lire et écrire des données : Parquet, CSV, JSON, Delta Lake.
Module 3 — Optimisation des performances
- Comprendre le query plan et l'optimiseur Catalyst.
- Gérer le partitionnement et le shuffling pour éviter les goulots.
- Utiliser le cache et la persistance efficacement.
- Éviter les problèmes de data skew et d'Out of Memory (OOM).
Module 4 — Spark Streaming et traitement temps réel
- Comprendre les concepts du traitement en continu.
- Implémenter des pipelines Structured Streaming.
- Intégrer Spark avec Apache Kafka.
- Gérer les fenêtres temporelles et les watermarks.
Module 5 — MLlib et déploiement
- Entraîner des modèles ML distribués avec Spark MLlib.
- Construire des pipelines ML avec Pipeline API.
- Déployer des jobs Spark sur YARN, Kubernetes ou Databricks.
- Projet final : pipeline de traitement de données massives de bout en bout.
Un programme adapté à votre niveau réel
Ce programme est indicatif. Pour un parcours vraiment sur mesure, commencez par vous entraîner et évaluer votre niveau avec le quiz CodeDuel. Contactez-nous ensuite — notre IA détecte précisément vos gaps et nous construisons un programme adapté à votre niveau réel.