Avancé

Apache Spark

Traitez des données massives à grande échelle avec Apache Spark — batch, streaming et machine learning distribué.

Durée estimée
4 jours — 28h
📊
Niveau
Avancé
🎓
Parcours associé

Objectifs pédagogiques

  • Comprendre l'architecture distribuée de Spark (driver, executors, partitions).
  • Traiter des données massives avec Spark DataFrames et PySpark.
  • Implémenter des pipelines de traitement batch et streaming.
  • Utiliser Spark MLlib pour le machine learning distribué.
  • Optimiser les performances des jobs Spark en production.

Prérequis

  • Python Data Science maîtrisé (Pandas, NumPy).
  • Notions SQL et bases Linux.

Programme indicatif

Module 1 — Architecture Spark et écosystème
  • Comprendre le modèle d'exécution distribué (driver, executors, partitions).
  • Découvrir l'écosystème Spark : Core, SQL, Streaming, MLlib, GraphX.
  • Installer et configurer Spark en local et sur cluster.
  • Comprendre les RDDs, DataFrames et Datasets et leurs cas d'usage.
Module 2 — Spark DataFrames et Spark SQL
  • Créer et transformer des DataFrames avec PySpark.
  • Maîtriser les transformations (filter, select, groupBy, join, window).
  • Utiliser Spark SQL pour les requêtes analytiques.
  • Lire et écrire des données : Parquet, CSV, JSON, Delta Lake.
Module 3 — Optimisation des performances
  • Comprendre le query plan et l'optimiseur Catalyst.
  • Gérer le partitionnement et le shuffling pour éviter les goulots.
  • Utiliser le cache et la persistance efficacement.
  • Éviter les problèmes de data skew et d'Out of Memory (OOM).
Module 4 — Spark Streaming et traitement temps réel
  • Comprendre les concepts du traitement en continu.
  • Implémenter des pipelines Structured Streaming.
  • Intégrer Spark avec Apache Kafka.
  • Gérer les fenêtres temporelles et les watermarks.
Module 5 — MLlib et déploiement
  • Entraîner des modèles ML distribués avec Spark MLlib.
  • Construire des pipelines ML avec Pipeline API.
  • Déployer des jobs Spark sur YARN, Kubernetes ou Databricks.
  • Projet final : pipeline de traitement de données massives de bout en bout.
Un programme adapté à votre niveau réel

Ce programme est indicatif. Pour un parcours vraiment sur mesure, commencez par vous entraîner et évaluer votre niveau avec le quiz CodeDuel. Contactez-nous ensuite — notre IA détecte précisément vos gaps et nous construisons un programme adapté à votre niveau réel.

Parcours associé

Cette formation fait partie du parcours Data Engineer.

Voir le parcours complet

Prêt à démarrer ?

Contactez-nous pour construire votre parcours sur mesure.