DE2 – Lab 1 : Structured Streaming Pipeline
Objectifs
L’objectif principal de ce premier laboratoire de Data Engineering II était de construire un pipeline de streaming complet avec Apache Spark Structured Streaming.
Le projet consistait à simuler un flux temps réel de données de micromobilité (trajets de trottinettes et vélos en libre-service), puis à effectuer des agrégations temporelles avec fenêtres glissantes et gestion des événements en retard grâce aux watermarks.
Ce laboratoire permettait de comprendre plusieurs concepts fondamentaux du streaming distribué :
- lecture continue de fichiers avec
readStream - gestion de l’event-time
- fenêtres temporelles (
window) - watermarks pour les données tardives
- stockage d’état (
stateful aggregations) - écriture incrémentale vers un sink Parquet
- monitoring avec
query.lastProgress - analyse du Streaming UI Spark
- comparaison avant/après optimisation
📘 Notebook associé :
Voir le notebook Lab 1
Contexte académique
- ESIEE Paris — Data Engineering II — Lab 1
- Auteur : Sara AISSAOUI & Yannick PRAT
- Enseignant : Badr TAJINI
- Année académique : 2025–2026
- Track : C — Micromobility
- Programme : Data & Applications (FD) - Data Engineering 2