DE2 – Lab 2 : Text Processing — Inverted Index Pipeline (15%)

Objectifs

L’objectif de ce lab est de construire une chaîne complète de traitement de texte avec Apache Spark à partir d’un corpus issu de données Citi Bike et NYC Open Data.

On cherche à passer d’un ensemble de textes bruts (descriptions de stations et données urbaines) à un moteur d’index inversé, capable de répondre rapidement à des requêtes textuelles.

Plus précisément, le travail consiste à :

Ingérer un corpus textuel structuré
Nettoyer et normaliser le texte (tokenisation, minuscules, suppression des stop-words)
Construire un inverted index (token → documents)
Mesurer les performances de requêtes (latence)
Comparer les formats de stockage Parquet vs CSV
Analyser les performances Spark (plans d’exécution)

Corpus utilisé

Le corpus correspond à des données combinées :

Stations Citi Bike (New York City)
Données NYC Open Data (mobilité, infrastructure, sécurité, accessibilité)

Chaque document représente une station ou un enregistrement textuel.

Notebook

Voir le notebook Lab 2

Contexte académique

ESIEE Paris — Data Engineering II — Lab 2
Auteur : Sara AISSAOUI & Yannick PRAT
Enseignant : Badr TAJINI
Année académique : 2025–2026
Track : C — Micromobility
Programme : Data & Applications (FD) - Data Engineering 2

Quartz 4

Explorer

Lab 2 : Text Processing — Inverted Index Pipeline (Track C)

DE2 – Lab 2 : Text Processing — Inverted Index Pipeline (15%)

Objectifs

Corpus utilisé

Notebook

Contexte académique

Graph View

Table of Contents

Backlinks