DE2 – Lab 1 : Structured Streaming Pipeline

Objectifs

L’objectif principal de ce premier laboratoire de Data Engineering II était de construire un pipeline de streaming complet avec Apache Spark Structured Streaming.
Le projet consistait à simuler un flux temps réel de données de micromobilité (trajets de trottinettes et vélos en libre-service), puis à effectuer des agrégations temporelles avec fenêtres glissantes et gestion des événements en retard grâce aux watermarks.

Ce laboratoire permettait de comprendre plusieurs concepts fondamentaux du streaming distribué :

  • lecture continue de fichiers avec readStream
  • gestion de l’event-time
  • fenêtres temporelles (window)
  • watermarks pour les données tardives
  • stockage d’état (stateful aggregations)
  • écriture incrémentale vers un sink Parquet
  • monitoring avec query.lastProgress
  • analyse du Streaming UI Spark
  • comparaison avant/après optimisation

📘 Notebook associé :
Voir le notebook Lab 1

Contexte académique

  • ESIEE Paris — Data Engineering II — Lab 1
  • Auteur : Sara AISSAOUI & Yannick PRAT
  • Enseignant : Badr TAJINI
  • Année académique : 2025–2026
  • Track : C — Micromobility
  • Programme : Data & Applications (FD) - Data Engineering 2