DE2 – Lab 3 : Graphs or Clustering
Objectifs
Ce lab a pour objectif d’utiliser Apache Spark MLlib afin de réaliser un clustering KMeans sur les données Citi Bike de New York.
Le travail consiste à :
- Nettoyer et préparer les données
- Construire des features par station
- Appliquer l’algorithme KMeans
- Comparer plusieurs valeurs de k
- Mesurer les performances Spark
- Étudier l’impact du partitionnement
Dataset utilisé
Le dataset Citi Bike contient les trajets effectués entre les stations de New York City :
- Coordonnées des stations
- Durée des trajets
- Stations de départ/arrivée
- Type d’utilisateur
Le clustering est réalisé sur des statistiques agrégées par station.
Résultats
Les expérimentations montrent que :
- Le meilleur résultat est obtenu avec k = 2
- Le score de silhouette atteint 0.676
- Le repartitionnement Spark améliore fortement les temps d’exécution
- Les clusters restent stables pour plusieurs seeds
Notebook
Contexte académique
- ESIEE Paris — Data Engineering II — Lab 3
- Auteur : Sara AISSAOUI & Yannick PRAT
- Enseignant : Badr TAJINI
- Année académique : 2025–2026
- Track : C — Citi Bike CSV
- Path : Clustering (KMeans)