Projet Final – Pipeline analytique Spark
Introduction
Ce projet final a pour objectif de construire un pipeline de traitement de données complet en s’appuyant sur Apache Spark.
Nous avons utilisé un fichier brut provenant d’OpenFoodFacts pour produire des tables analytiques prêtes à l’usage.
Architecture
Le pipeline est structuré en trois niveaux :
- Bronze : ingestion des données brutes
- Silver : nettoyage, typage, enrichissement
- Gold : agrégations analytiques et réponses aux questions métiers
Étapes clés
- Ingestion des données OpenFoodFacts
- Nettoyage des colonnes, parsing des dates
- Typage et enrichissement par jointures
- Agrégation par catégories, dates, marques
- Export en Parquet partitionné
Résultats
- Tables analytiques prêtes pour la visualisation
- Réponses à plusieurs questions métiers
- Pipeline reproductible et documenté
📘 Notebook du projet :
Voir le notebook final
📄 Télécharger le rapport final :
rapport_final.pdf
Contexte académique
- ESIEE Paris — Data Engineering I — Assignment 1
- Auteur : Sara AISSAOUI & Yannick PRAT
- Année académique : 2025–2026
- Programme : Data & Applications (FD) - Data Engineering