DE1 – Lab 1 : Pipeline Spark

Objectifs

L’objectif principal de ce premier assignment était de vérifier que l’environnement Spark local était correctement configuré dans JupyterLab, puis d’implémenter une tâche classique de Word Count sur la colonne description du fichier a1-brand.csv. Ce type de tâche est considéré comme le “Hello World” des systèmes distribués comme Hadoop ou Spark, car il permet de manipuler des données textuelles et de comprendre les transformations de base.

📘 Notebook associé :
Voir le notebook Lab 1

Contexte académique

  • ESIEE Paris — Data Engineering I — Assignment 1
  • Auteur : Sara AISSAOUI & Yannick PRAT
  • Année académique : 2025–2026
  • Programme : Data & Applications (FD) - Data Engineering