DE2 – Lab 2 : Text Processing — Inverted Index Pipeline (15%)
Objectifs
L’objectif de ce lab est de construire une chaîne complète de traitement de texte avec Apache Spark à partir d’un corpus issu de données Citi Bike et NYC Open Data.
On cherche à passer d’un ensemble de textes bruts (descriptions de stations et données urbaines) à un moteur d’index inversé, capable de répondre rapidement à des requêtes textuelles.
Plus précisément, le travail consiste à :
- Ingérer un corpus textuel structuré
- Nettoyer et normaliser le texte (tokenisation, minuscules, suppression des stop-words)
- Construire un inverted index (token → documents)
- Mesurer les performances de requêtes (latence)
- Comparer les formats de stockage Parquet vs CSV
- Analyser les performances Spark (plans d’exécution)
Corpus utilisé
Le corpus correspond à des données combinées :
- Stations Citi Bike (New York City)
- Données NYC Open Data (mobilité, infrastructure, sécurité, accessibilité)
Chaque document représente une station ou un enregistrement textuel.
Notebook
Contexte académique
- ESIEE Paris — Data Engineering II — Lab 2
- Auteur : Sara AISSAOUI & Yannick PRAT
- Enseignant : Badr TAJINI
- Année académique : 2025–2026
- Track : C — Micromobility
- Programme : Data & Applications (FD) - Data Engineering 2