Fondamental

Apache Airflow

Orchestrez vos pipelines de données avec Apache Airflow — automatisation, scheduling et monitoring des workflows data.

Durée estimée
2 jours — 14h
📊
Niveau
Fondamental
🎓
Parcours associé

Objectifs pédagogiques

  • Comprendre l'architecture Airflow et le concept de DAG.
  • Créer et orchestrer des pipelines de données complexes.
  • Gérer les dépendances entre tâches et les erreurs.
  • Monitorer les workflows via l'interface web Airflow.
  • Déployer Airflow en production sur Kubernetes.

Prérequis

  • Python maîtrisé (fonctions, classes, librairies).
  • Bases SQL et notions de pipelines data.

Programme indicatif

Module 1 — Architecture Airflow et concepts fondamentaux
  • Comprendre l'architecture Airflow (Scheduler, Webserver, Executor, Metastore).
  • Installer Airflow avec Docker Compose.
  • Maîtriser les concepts DAG, Task, Operator, XCom, Connection.
  • Naviguer et utiliser l'interface web Airflow efficacement.
Module 2 — Création de DAGs et opérateurs
  • Écrire des DAGs Python structurés et maintenables.
  • Utiliser les opérateurs essentiels (PythonOperator, BashOperator, EmailOperator).
  • Gérer les dépendances entre tâches avec set_upstream/set_downstream.
  • Paramétrer les DAGs avec les variables et les connexions Airflow.
Module 3 — Opérateurs avancés et intégrations
  • Utiliser les opérateurs de transfert (S3, GCS, BigQuery, Postgres).
  • Implémenter les sensors pour attendre des événements externes.
  • Créer ses propres opérateurs personnalisés.
  • Intégrer Airflow avec Spark, dbt et les bases de données.
Module 4 — Gestion des erreurs et monitoring
  • Configurer les retries, timeouts et SLAs.
  • Implémenter les alertes par email et Slack.
  • Analyser les logs et déboguer les DAGs en échec.
  • Utiliser les métriques Airflow avec Prometheus et Grafana.
Module 5 — Production et bonnes pratiques
  • Déployer Airflow sur Kubernetes avec Helm.
  • Gérer les secrets avec Airflow Connections et Variables.
  • Versionner les DAGs avec Git et CI/CD.
  • Projet final : pipeline d'ingestion et de transformation de données complet orchestré avec Airflow.
Un programme adapté à votre niveau réel

Ce programme est indicatif. Pour un parcours vraiment sur mesure, commencez par vous entraîner et évaluer votre niveau avec le quiz CodeDuel. Contactez-nous ensuite — notre IA détecte précisément vos gaps et nous construisons un programme adapté à votre niveau réel.

Parcours associé

Cette formation fait partie du parcours Data Engineer.

Voir le parcours complet

Prêt à démarrer ?

Contactez-nous pour construire votre parcours sur mesure.