DE2 – Lab 3 : Graphs or Clustering

Objectifs

Ce lab a pour objectif d’utiliser Apache Spark MLlib afin de réaliser un clustering KMeans sur les données Citi Bike de New York.

Le travail consiste à :

  • Nettoyer et préparer les données
  • Construire des features par station
  • Appliquer l’algorithme KMeans
  • Comparer plusieurs valeurs de k
  • Mesurer les performances Spark
  • Étudier l’impact du partitionnement

Dataset utilisé

Le dataset Citi Bike contient les trajets effectués entre les stations de New York City :

  • Coordonnées des stations
  • Durée des trajets
  • Stations de départ/arrivée
  • Type d’utilisateur

Le clustering est réalisé sur des statistiques agrégées par station.


Résultats

Les expérimentations montrent que :

  • Le meilleur résultat est obtenu avec k = 2
  • Le score de silhouette atteint 0.676
  • Le repartitionnement Spark améliore fortement les temps d’exécution
  • Les clusters restent stables pour plusieurs seeds

Notebook

Voir le notebook Lab 3


Contexte académique

  • ESIEE Paris — Data Engineering II — Lab 3
  • Auteur : Sara AISSAOUI & Yannick PRAT
  • Enseignant : Badr TAJINI
  • Année académique : 2025–2026
  • Track : C — Citi Bike CSV
  • Path : Clustering (KMeans)