Apache Airflow est aujourd’hui la référence mondiale en matière d’orchestration de workflows et de pipelines de données.
Développé à l’origine par Airbnb et désormais soutenu par la fondation Apache, Airflow est devenu un standard incontournable pour les data engineers, analytics engineers et machine learning engineers.
Cette formation Apache Airflow vous permet d’apprendre à concevoir, planifier et maintenir des pipelines de données complexes, comme cela est attendu en entreprise sur des postes de Data Engineer, Analytics Engineer ou ML Engineer.
Vous partez des bases (premier DAG, installation, concepts fondamentaux) pour aller progressivement vers des usages avancés d’Airflow : DAGs dynamiques, XCom, TaskGroups, scheduling fin, déclenchements conditionnels et bonnes pratiques de production.
À l’issue de cette formation, vous serez capable de :
Comprendre le rôle et les avantages d’Airflow dans l’orchestration de pipelines.
Construire et planifier des workflows de données complexes (ETL/ELT, ingestion, ML pipelines).
Gérer les dépendances et les relances automatiques de tâches en cas d’erreurs.
Déployer vos pipelines sur une base de données locale avec DuckDB pour un apprentissage simple et efficace.
Utiliser Airflow dans des cas concrets d’ingestion, de transformation et de machine learning.
Introduction à Airflow et son histoire
Origines chez Airbnb et rôle dans le Data Engineering moderne.
Place d’Airflow parmi les outils d’orchestration (Mage, solutions cloud, alternatives no-code).
Pourquoi apprendre Airflow ?
Cas d’usage : ingestion des données, planification des transformations, automatisation ML, gestion d’infrastructures cloud.
Airflow dans l’écosystème cloud (AWS, GCP, Azure).
Mise en place de l’environnement
Présentation de l’environnement de travail
Installation avec Rancher Desktop / Docker
Création des comptes nécessaires
Mise en place de la base de données
Repository GitHub du cours
Créer son premier DAG
Définition d’un DAG
Lancer et arrêter Airflow avec Docker
Introduction aux décorateurs Python
Création du premier DAG
Ajouter des tasks à un DAG
Télécharger les données depuis une API
Écrire une fonction de téléchargement
Transformer une fonction en task Airflow
Charger les données dans DuckDB
Vérifications et contrôles
Déclenchement et planification des DAGs
Introduction à cron
Planifier un DAG
Fonctionnalité de catchup
Variables Jinja : data interval start & end
Déclenchement via capteurs (sensors)
Rendre un DAG dynamique
Introduction à XCom
Créer et exploiter des XCom
Passer des valeurs au DAG à l’exécution
Variables Jinja dans Airflow
Usage avancé d’Airflow
TaskGroups
TaskGroups et XCom
Génération dynamique des DAGs
Dynamic Task Mapping (parties 1 & 2)
Spécificités d’exécution du code Airflow
Synthèse sur les DAGs dynamiques
Projet final
Construction d’un pipeline Airflow complet
Mise en pratique de tous les concepts vus
Data Engineers qui souhaitent maîtriser l’orchestration de données à grande échelle.
Analytics Engineers et Data Scientists qui veulent automatiser leurs workflows de transformation et de machine learning.
Développeurs SQL/Python cherchant à professionnaliser leurs pipelines.
Étudiants en data désirant acquérir une compétence très demandée par les entreprises.
Connaissances de base en SQL et en Python.
Notions de pipelines de données (ETL/ELT).
Aucune connaissance préalable d’Airflow requise.
✔ Créer et exécuter vos premiers DAGs dans Airflow.
✔ Automatiser des workflows complets de data engineering et machine learning.
✔ Déployer des pipelines robustes et maintenables avec DuckDB.
✔ Comprendre comment Airflow s’intègre aux infrastructures cloud modernes.
Abonnez-vous
Abonnez-vous à notre newsletter et recevez les actualités directement dans votre boite email