Séminaires

A la découverte de SPARK

par M. Osman AIDEL (IN2P3-CC Grid service)

Europe/Paris
Amphi (CC-IN2P3)

Amphi

CC-IN2P3

Description

Dans un contexte technologique ou les données sont très faciles à produire, l’analyse quant à elle devient de plus en plus complexe. Les plateformes de calcul telles que MapReduce (HADOOP) ont été largement adoptées pour les traitements analytiques. Bien que ces plateformes offrent un modèle de calcul hautement parallélisable et tolérant aux pannes matérielles, elles demeurent néanmoins pour certains traitements inefficaces notamment lorsque les données ont besoin d’être réutilisées. C’est à partir de ces constats que SPARK est née.

SPARK se veut être une plateforme généraliste robuste aux pannes et hautement parallélisable, ou le traitement des données exploite au maximum la mémoire pour améliorer les performances.

Spark semble proposer des approches tout à fait complémentaires aux outils de calcul intensif et haut-débit (HPC, HTC) déjà implantés dans nos environnements. L’objectif de ce séminaire sera de vous présenter plus en détail l'architecture SPARK, le concept de RDD et l’interêt que peut représenter une telle technologie.