Projet Final

Introduction

Ce projet final a pour objectif de construire un pipeline de traitement de données complet en s’appuyant sur Apache Spark.

Architecture

Le pipeline est structuré en trois niveaux :

  • Bronze : ingestion des données brutes
  • Silver : nettoyage, typage, enrichissement
  • Gold : agrégations analytiques et réponses aux questions métiers

Étapes clés

  1. Ingestion des données OpenFoodFacts
  2. Nettoyage des colonnes, parsing des dates
  3. Typage et enrichissement par jointures
  4. Agrégation par catégories, dates, marques
  5. Export en Parquet partitionné

📘 Notebook du projet :
Voir le notebook final

📄 Télécharger le rapport final du projet :
rapport_final.pdf

Contexte académique

  • ESIEE Paris — Data Engineering II — Projet
  • Auteur : Sara AISSAOUI & Yannick PRAT
  • Enseignant : Badr TAJINI
  • Année académique : 2025–2026
  • Track : C — Citi Bike CSV
  • Path : Clustering (KMeans)