Fondamental

Databricks

Exploitez la puissance de Databricks pour l'ingénierie et la science des données sur le cloud — Delta Lake, MLflow et Spark unifié.

Durée estimée
2 jours — 14h
📊
Niveau
Fondamental
🎓
Parcours associé

Objectifs pédagogiques

  • Comprendre l'architecture Databricks et le paradigme Lakehouse.
  • Utiliser Delta Lake pour la gestion ACID des données.
  • Créer des pipelines avec Databricks Workflows.
  • Entraîner et déployer des modèles avec MLflow.
  • Optimiser les coûts et les performances du cluster.

Prérequis

  • Python Data Science maîtrisé (Pandas, NumPy).
  • Apache Spark (notions DataFrames, PySpark).
  • Notions cloud (AWS, Azure ou GCP).

Programme indicatif

Module 1 — Architecture Databricks et Lakehouse
  • Comprendre le paradigme Lakehouse vs Data Warehouse vs Data Lake.
  • Naviguer dans l'interface Databricks (Workspace, Clusters, Jobs, Repos).
  • Configurer et optimiser les clusters Databricks.
  • Comprendre l'intégration avec Azure, AWS et GCP.
Module 2 — Delta Lake et gestion des données
  • Créer et gérer des tables Delta Lake.
  • Utiliser les fonctionnalités ACID (transactions, rollback, time travel).
  • Optimiser le stockage avec OPTIMIZE et Z-ORDER.
  • Implémenter le Change Data Capture (CDC) avec Delta.
Module 3 — Databricks SQL et Analytics
  • Créer des requêtes et des dashboards avec Databricks SQL.
  • Gérer le SQL Warehouse et optimiser les performances.
  • Connecter des outils BI (Power BI, Tableau) à Databricks.
  • Implémenter des alertes et des rapports automatisés.
Module 4 — MLflow et Machine Learning
  • Tracker les expériences ML avec MLflow Tracking.
  • Gérer les modèles avec MLflow Model Registry.
  • Déployer des modèles en production avec MLflow Serving.
  • Utiliser AutoML Databricks pour accélérer le développement.
Module 5 — Databricks Workflows et production
  • Orchestrer des pipelines avec Databricks Workflows.
  • Implémenter les meilleures pratiques DevOps (CI/CD, tests, Git).
  • Gérer la sécurité et les permissions avec Unity Catalog.
  • Projet final : pipeline Lakehouse complet de l'ingestion au dashboard analytique.
Un programme adapté à votre niveau réel

Ce programme est indicatif. Pour un parcours vraiment sur mesure, commencez par vous entraîner et évaluer votre niveau avec le quiz CodeDuel. Contactez-nous ensuite — notre IA détecte précisément vos gaps et nous construisons un programme adapté à votre niveau réel.

Parcours associé

Cette formation fait partie du parcours Data Engineer.

Voir le parcours complet

Prêt à démarrer ?

Contactez-nous pour construire votre parcours sur mesure.