Projet Final
Introduction
Ce projet final a pour objectif de construire un pipeline de traitement de données complet en s’appuyant sur Apache Spark.
Architecture
Le pipeline est structuré en trois niveaux :
- Bronze : ingestion des données brutes
- Silver : nettoyage, typage, enrichissement
- Gold : agrégations analytiques et réponses aux questions métiers
Étapes clés
- Ingestion des données OpenFoodFacts
- Nettoyage des colonnes, parsing des dates
- Typage et enrichissement par jointures
- Agrégation par catégories, dates, marques
- Export en Parquet partitionné
📘 Notebook du projet :
Voir le notebook final
📄 Télécharger le rapport final du projet :
rapport_final.pdf
Contexte académique
- ESIEE Paris — Data Engineering II — Projet
- Auteur : Sara AISSAOUI & Yannick PRAT
- Enseignant : Badr TAJINI
- Année académique : 2025–2026
- Track : C — Citi Bike CSV
- Path : Clustering (KMeans)