DE1 – Lab 3 : Spark SQL, DataFrames et RDDs

Objectifs

Ce dernier lab explore l’écosystème Spark à travers plusieurs approches complémentaires :

  • Spark SQL
  • DataFrames
  • RDDs
  • Implémentations manuelles d’algorithmes distribués

L’objectif était de comprendre à la fois l’utilisation pratique des API haut niveau et les mécanismes internes de Spark, notamment le fonctionnement des shuffles, des agrégations et des jointures.

Méthodologie

  • Comparaison entre Spark SQL et DataFrame API
  • Implémentation manuelle d’un Word Count avec RDD
  • Analyse des plans d’exécution
  • Tests de performance et de scalabilité

Résultats

  • Meilleure compréhension des optimisations internes
  • Visualisation des plans via df.explain(mode='formatted')
  • Validation des résultats par comparaison entre APIs

Notebook

Voir le notebook Lab 3

Contexte académique

  • ESIEE Paris — Data Engineering I — Assignment 1
  • Auteur : Sara AISSAOUI & Yannick PRAT
  • Année académique : 2025–2026
  • Programme : Data & Applications (FD) - Data Engineering