Quartz 4

❯

Data Engineering 2

❯

❯

Lab 3 : KMeans Clustering on Citi Bike Data (Track C)

Lab 3 : KMeans Clustering on Citi Bike Data (Track C)

May 22, 20261 min read

DE2 – Lab 3 : Graphs or Clustering

Objectifs

Ce lab a pour objectif d’utiliser Apache Spark MLlib afin de réaliser un clustering KMeans sur les données Citi Bike de New York.

Le travail consiste à :

Nettoyer et préparer les données
Construire des features par station
Appliquer l’algorithme KMeans
Comparer plusieurs valeurs de k
Mesurer les performances Spark
Étudier l’impact du partitionnement

Dataset utilisé

Le dataset Citi Bike contient les trajets effectués entre les stations de New York City :

Coordonnées des stations
Durée des trajets
Stations de départ/arrivée
Type d’utilisateur

Le clustering est réalisé sur des statistiques agrégées par station.

Résultats

Les expérimentations montrent que :

Le meilleur résultat est obtenu avec k = 2
Le score de silhouette atteint 0.676
Le repartitionnement Spark améliore fortement les temps d’exécution
Les clusters restent stables pour plusieurs seeds

Notebook

Voir le notebook Lab 3

Contexte académique

ESIEE Paris — Data Engineering II — Lab 3
Auteur : Sara AISSAOUI & Yannick PRAT
Enseignant : Badr TAJINI
Année académique : 2025–2026
Track : C — Citi Bike CSV
Path : Clustering (KMeans)

Graph View

DE2 – Lab 3 : Graphs or Clustering
Objectifs
Dataset utilisé
Résultats
Notebook
Contexte académique

Backlinks

Data Engineering 2
roadmap-labs-project-DE2

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community