Avancé

Apache Spark

Traitez des données massives à grande échelle avec Apache Spark — batch, streaming et machine learning distribué.

⏱

Durée estimée

4 jours — 28h

📊

Niveau

Avancé

🎓

Parcours associé

Data Engineer

Objectifs pédagogiques

Comprendre l'architecture distribuée de Spark (driver, executors, partitions).
Traiter des données massives avec Spark DataFrames et PySpark.
Implémenter des pipelines de traitement batch et streaming.
Utiliser Spark MLlib pour le machine learning distribué.
Optimiser les performances des jobs Spark en production.

Prérequis

Python Data Science maîtrisé (Pandas, NumPy).
Notions SQL et bases Linux.

Programme indicatif

Module 1 — Architecture Spark et écosystème

Comprendre le modèle d'exécution distribué (driver, executors, partitions).
Découvrir l'écosystème Spark : Core, SQL, Streaming, MLlib, GraphX.
Installer et configurer Spark en local et sur cluster.
Comprendre les RDDs, DataFrames et Datasets et leurs cas d'usage.

Module 2 — Spark DataFrames et Spark SQL

Créer et transformer des DataFrames avec PySpark.
Maîtriser les transformations (filter, select, groupBy, join, window).
Utiliser Spark SQL pour les requêtes analytiques.
Lire et écrire des données : Parquet, CSV, JSON, Delta Lake.

Module 3 — Optimisation des performances

Comprendre le query plan et l'optimiseur Catalyst.
Gérer le partitionnement et le shuffling pour éviter les goulots.
Utiliser le cache et la persistance efficacement.
Éviter les problèmes de data skew et d'Out of Memory (OOM).

Module 4 — Spark Streaming et traitement temps réel

Comprendre les concepts du traitement en continu.
Implémenter des pipelines Structured Streaming.
Intégrer Spark avec Apache Kafka.
Gérer les fenêtres temporelles et les watermarks.

Module 5 — MLlib et déploiement

Entraîner des modèles ML distribués avec Spark MLlib.
Construire des pipelines ML avec Pipeline API.
Déployer des jobs Spark sur YARN, Kubernetes ou Databricks.
Projet final : pipeline de traitement de données massives de bout en bout.

Un programme adapté à votre niveau réel

Ce programme est indicatif. Pour un parcours vraiment sur mesure, commencez par vous entraîner et évaluer votre niveau avec le quiz CodeDuel. Contactez-nous ensuite — notre IA détecte précisément vos gaps et nous construisons un programme adapté à votre niveau réel.

S'entraîner sur CodeDuel Demander une évaluation

Parcours associé

Cette formation fait partie du parcours Data Engineer.

Voir le parcours complet

Prêt à démarrer ?

Contactez-nous pour construire votre parcours sur mesure.

Demander un devis Voir toutes les formations