Fondamental

Databricks

Exploitez la puissance de Databricks pour l'ingénierie et la science des données sur le cloud — Delta Lake, MLflow et Spark unifié.

⏱

Durée estimée

2 jours — 14h

📊

Niveau

Fondamental

🎓

Parcours associé

Data Engineer

Objectifs pédagogiques

Comprendre l'architecture Databricks et le paradigme Lakehouse.
Utiliser Delta Lake pour la gestion ACID des données.
Créer des pipelines avec Databricks Workflows.
Entraîner et déployer des modèles avec MLflow.
Optimiser les coûts et les performances du cluster.

Prérequis

Python Data Science maîtrisé (Pandas, NumPy).
Apache Spark (notions DataFrames, PySpark).
Notions cloud (AWS, Azure ou GCP).

Programme indicatif

Module 1 — Architecture Databricks et Lakehouse

Comprendre le paradigme Lakehouse vs Data Warehouse vs Data Lake.
Naviguer dans l'interface Databricks (Workspace, Clusters, Jobs, Repos).
Configurer et optimiser les clusters Databricks.
Comprendre l'intégration avec Azure, AWS et GCP.

Module 2 — Delta Lake et gestion des données

Créer et gérer des tables Delta Lake.
Utiliser les fonctionnalités ACID (transactions, rollback, time travel).
Optimiser le stockage avec OPTIMIZE et Z-ORDER.
Implémenter le Change Data Capture (CDC) avec Delta.

Module 3 — Databricks SQL et Analytics

Créer des requêtes et des dashboards avec Databricks SQL.
Gérer le SQL Warehouse et optimiser les performances.
Connecter des outils BI (Power BI, Tableau) à Databricks.
Implémenter des alertes et des rapports automatisés.

Module 4 — MLflow et Machine Learning

Tracker les expériences ML avec MLflow Tracking.
Gérer les modèles avec MLflow Model Registry.
Déployer des modèles en production avec MLflow Serving.
Utiliser AutoML Databricks pour accélérer le développement.

Module 5 — Databricks Workflows et production

Orchestrer des pipelines avec Databricks Workflows.
Implémenter les meilleures pratiques DevOps (CI/CD, tests, Git).
Gérer la sécurité et les permissions avec Unity Catalog.
Projet final : pipeline Lakehouse complet de l'ingestion au dashboard analytique.

Un programme adapté à votre niveau réel

Ce programme est indicatif. Pour un parcours vraiment sur mesure, commencez par vous entraîner et évaluer votre niveau avec le quiz CodeDuel. Contactez-nous ensuite — notre IA détecte précisément vos gaps et nous construisons un programme adapté à votre niveau réel.

S'entraîner sur CodeDuel Demander une évaluation

Parcours associé

Cette formation fait partie du parcours Data Engineer.

Voir le parcours complet

Prêt à démarrer ?

Contactez-nous pour construire votre parcours sur mesure.

Demander un devis Voir toutes les formations