DE2 – Lab 2 : Text Processing — Inverted Index Pipeline (15%)

Objectifs

L’objectif de ce lab est de construire une chaîne complète de traitement de texte avec Apache Spark à partir d’un corpus issu de données Citi Bike et NYC Open Data.

On cherche à passer d’un ensemble de textes bruts (descriptions de stations et données urbaines) à un moteur d’index inversé, capable de répondre rapidement à des requêtes textuelles.

Plus précisément, le travail consiste à :

  • Ingérer un corpus textuel structuré
  • Nettoyer et normaliser le texte (tokenisation, minuscules, suppression des stop-words)
  • Construire un inverted index (token → documents)
  • Mesurer les performances de requêtes (latence)
  • Comparer les formats de stockage Parquet vs CSV
  • Analyser les performances Spark (plans d’exécution)

Corpus utilisé

Le corpus correspond à des données combinées :

  • Stations Citi Bike (New York City)
  • Données NYC Open Data (mobilité, infrastructure, sécurité, accessibilité)

Chaque document représente une station ou un enregistrement textuel.


Notebook

Voir le notebook Lab 2


Contexte académique

  • ESIEE Paris — Data Engineering II — Lab 2
  • Auteur : Sara AISSAOUI & Yannick PRAT
  • Enseignant : Badr TAJINI
  • Année académique : 2025–2026
  • Track : C — Micromobility
  • Programme : Data & Applications (FD) - Data Engineering 2