Formation Apache Airflow : Orchestration et Pipelines de Données

Maîtrisez l’outil incontournable du Data Engineering

Apache Airflow est aujourd’hui la référence mondiale en matière d’orchestration de workflows et de pipelines de données.

Développé à l’origine par Airbnb et désormais soutenu par la fondation Apache, Airflow est devenu un standard incontournable pour les data engineers, analytics engineers et machine learning engineers.

Cette formation Apache Airflow vous permet d’apprendre à concevoir, planifier et maintenir des pipelines de données complexes, comme cela est attendu en entreprise sur des postes de Data Engineer, Analytics Engineer ou ML Engineer.

Vous partez des bases (premier DAG, installation, concepts fondamentaux) pour aller progressivement vers des usages avancés d’Airflow : DAGs dynamiques, XCom, TaskGroups, scheduling fin, déclenchements conditionnels et bonnes pratiques de production.

Objectifs pédagogiques

À l’issue de cette formation, vous serez capable de :

  • Comprendre le rôle et les avantages d’Airflow dans l’orchestration de pipelines.

  • Construire et planifier des workflows de données complexes (ETL/ELT, ingestion, ML pipelines).

  • Gérer les dépendances et les relances automatiques de tâches en cas d’erreurs.

  • Déployer vos pipelines sur une base de données locale avec DuckDB pour un apprentissage simple et efficace.

  • Utiliser Airflow dans des cas concrets d’ingestion, de transformation et de machine learning.

Programme de la formation Airflow

  • Introduction à Airflow et son histoire

    • Origines chez Airbnb et rôle dans le Data Engineering moderne.

    • Place d’Airflow parmi les outils d’orchestration (Mage, solutions cloud, alternatives no-code).

  • Pourquoi apprendre Airflow ?

    • Cas d’usage : ingestion des données, planification des transformations, automatisation ML, gestion d’infrastructures cloud.

    • Airflow dans l’écosystème cloud (AWS, GCP, Azure).

  • Mise en place de l’environnement

    • Présentation de l’environnement de travail

    • Installation avec Rancher Desktop / Docker

    • Création des comptes nécessaires

    • Mise en place de la base de données

    • Repository GitHub du cours

    Créer son premier DAG

    • Définition d’un DAG

    • Lancer et arrêter Airflow avec Docker

    • Introduction aux décorateurs Python

    • Création du premier DAG

    • Ajouter des tasks à un DAG

    Télécharger les données depuis une API

    • Écrire une fonction de téléchargement

    • Transformer une fonction en task Airflow

    • Charger les données dans DuckDB

    • Vérifications et contrôles

    Déclenchement et planification des DAGs

    • Introduction à cron

    • Planifier un DAG

    • Fonctionnalité de catchup

    • Variables Jinja : data interval start & end

    • Déclenchement via capteurs (sensors)

    Rendre un DAG dynamique

    • Introduction à XCom

    • Créer et exploiter des XCom

    • Passer des valeurs au DAG à l’exécution

    • Variables Jinja dans Airflow

    Usage avancé d’Airflow

    • TaskGroups

    • TaskGroups et XCom

    • Génération dynamique des DAGs

    • Dynamic Task Mapping (parties 1 & 2)

    • Spécificités d’exécution du code Airflow

    • Synthèse sur les DAGs dynamiques

    Projet final

    • Construction d’un pipeline Airflow complet

    • Mise en pratique de tous les concepts vus

Cette formation s’adresse à :

  • Data Engineers qui souhaitent maîtriser l’orchestration de données à grande échelle.

  • Analytics Engineers et Data Scientists qui veulent automatiser leurs workflows de transformation et de machine learning.

  • Développeurs SQL/Python cherchant à professionnaliser leurs pipelines.

  • Étudiants en data désirant acquérir une compétence très demandée par les entreprises.

Pré-requis

  • Connaissances de base en SQL et en Python.

  • Notions de pipelines de données (ETL/ELT).

  • Aucune connaissance préalable d’Airflow requise.

À la fin de cette formation Airflow, vous serez capable de :

✔ Créer et exécuter vos premiers DAGs dans Airflow.

✔ Automatiser des workflows complets de data engineering et machine learning.

✔ Déployer des pipelines robustes et maintenables avec DuckDB.

✔ Comprendre comment Airflow s’intègre aux infrastructures cloud modernes.

Abonnez-vous

Abonnez-vous à notre newsletter et recevez les actualités directement dans votre boite email

À PROPOS

Analytics Engineer & Data Analyst, nous partageons des conseils, des outils et des bonnes pratiques pour optimiser tes projets.