Projet Final – Pipeline analytique Spark

Introduction

Ce projet final a pour objectif de construire un pipeline de traitement de données complet en s’appuyant sur Apache Spark.
Nous avons utilisé un fichier brut provenant d’OpenFoodFacts pour produire des tables analytiques prêtes à l’usage.

Architecture

Le pipeline est structuré en trois niveaux :

Bronze : ingestion des données brutes
Silver : nettoyage, typage, enrichissement
Gold : agrégations analytiques et réponses aux questions métiers

Étapes clés

Ingestion des données OpenFoodFacts
Nettoyage des colonnes, parsing des dates
Typage et enrichissement par jointures
Agrégation par catégories, dates, marques
Export en Parquet partitionné

Résultats

Tables analytiques prêtes pour la visualisation
Réponses à plusieurs questions métiers
Pipeline reproductible et documenté

📘 Notebook du projet :
Voir le notebook final

📄 Télécharger le rapport final :
rapport_final.pdf

Contexte académique

ESIEE Paris — Data Engineering I — Assignment 1
Auteur : Sara AISSAOUI & Yannick PRAT
Année académique : 2025–2026
Programme : Data & Applications (FD) - Data Engineering

Quartz 4

Explorer

Projet – Lakehouse final

Projet Final – Pipeline analytique Spark

Introduction

Architecture

Étapes clés

Résultats

Contexte académique

Graph View

Table of Contents

Backlinks