Quartz 4

❯

Data Engineering 2

❯

❯

Projet – Pipeline de données

Projet – Pipeline de données

May 24, 20261 min read

Projet Final

Introduction

Ce projet final a pour objectif de construire un pipeline de traitement de données complet en s’appuyant sur Apache Spark.

Architecture

Le pipeline est structuré en trois niveaux :

Bronze : ingestion des données brutes
Silver : nettoyage, typage, enrichissement
Gold : agrégations analytiques et réponses aux questions métiers

Étapes clés

Ingestion des données OpenFoodFacts
Nettoyage des colonnes, parsing des dates
Typage et enrichissement par jointures
Agrégation par catégories, dates, marques
Export en Parquet partitionné

📘 Notebook du projet :
Voir le notebook final

📄 Télécharger le rapport final du projet :
rapport_final.pdf

Contexte académique

ESIEE Paris — Data Engineering II — Projet
Auteur : Sara AISSAOUI & Yannick PRAT
Enseignant : Badr TAJINI
Année académique : 2025–2026
Track : C — Citi Bike CSV
Path : Clustering (KMeans)

Graph View

Projet Final
Introduction
Architecture
Étapes clés
Contexte académique

Backlinks

Data Engineering 2
roadmap-labs-project-DE2

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community