DE1 – Lab 1 : Pipeline Spark

Objectifs

L’objectif principal de ce premier assignment était de vérifier que l’environnement Spark local était correctement configuré dans JupyterLab, puis d’implémenter une tâche classique de Word Count sur la colonne description du fichier a1-brand.csv. Ce type de tâche est considéré comme le “Hello World” des systèmes distribués comme Hadoop ou Spark, car il permet de manipuler des données textuelles et de comprendre les transformations de base.

📘 Notebook associé :
Voir le notebook Lab 1

Contexte académique

ESIEE Paris — Data Engineering I — Assignment 1
Auteur : Sara AISSAOUI & Yannick PRAT
Année académique : 2025–2026
Programme : Data & Applications (FD) - Data Engineering

Quartz 4

Explorer

Lab 1 – Pipeline Spark

DE1 – Lab 1 : Pipeline Spark

Objectifs

Contexte académique

Graph View

Table of Contents

Backlinks