DE1 – Lab 3 : Spark SQL, DataFrames et RDDs
Objectifs
Ce dernier lab explore l’écosystème Spark à travers plusieurs approches complémentaires :
- Spark SQL
- DataFrames
- RDDs
- Implémentations manuelles d’algorithmes distribués
L’objectif était de comprendre à la fois l’utilisation pratique des API haut niveau et les mécanismes internes de Spark, notamment le fonctionnement des shuffles, des agrégations et des jointures.
Méthodologie
- Comparaison entre Spark SQL et DataFrame API
- Implémentation manuelle d’un Word Count avec RDD
- Analyse des plans d’exécution
- Tests de performance et de scalabilité
Résultats
- Meilleure compréhension des optimisations internes
- Visualisation des plans via
df.explain(mode='formatted') - Validation des résultats par comparaison entre APIs
Notebook
Contexte académique
- ESIEE Paris — Data Engineering I — Assignment 1
- Auteur : Sara AISSAOUI & Yannick PRAT
- Année académique : 2025–2026
- Programme : Data & Applications (FD) - Data Engineering