Projet Final – Pipeline analytique Spark

Introduction

Ce projet final a pour objectif de construire un pipeline de traitement de données complet en s’appuyant sur Apache Spark.
Nous avons utilisé un fichier brut provenant d’OpenFoodFacts pour produire des tables analytiques prêtes à l’usage.

Architecture

Le pipeline est structuré en trois niveaux :

  • Bronze : ingestion des données brutes
  • Silver : nettoyage, typage, enrichissement
  • Gold : agrégations analytiques et réponses aux questions métiers

Étapes clés

  1. Ingestion des données OpenFoodFacts
  2. Nettoyage des colonnes, parsing des dates
  3. Typage et enrichissement par jointures
  4. Agrégation par catégories, dates, marques
  5. Export en Parquet partitionné

Résultats

  • Tables analytiques prêtes pour la visualisation
  • Réponses à plusieurs questions métiers
  • Pipeline reproductible et documenté

📘 Notebook du projet :
Voir le notebook final

📄 Télécharger le rapport final :
rapport_final.pdf

Contexte académique

  • ESIEE Paris — Data Engineering I — Assignment 1
  • Auteur : Sara AISSAOUI & Yannick PRAT
  • Année académique : 2025–2026
  • Programme : Data & Applications (FD) - Data Engineering