Séminaires LLR

Spark pour les physiciens

par stephane plaszczynski (CNRS)

Europe/Paris
Salle de conference 05-2021 (LLR)

Salle de conference 05-2021

LLR

Description

Apache-Spark est une technologie issue du monde du big data très utilisée dans l'industrie mais assez peu dans celui de la recherche scientifique. Le but de ce séminaire interne est de présenter cet outil et ses potentialités en particulier pour l’analyse des gros volume de données tels que ceux attendus par les prochains relevés de galaxies. Après une introduction pédagogique concernant le calcul distribue avec Spark et ses avantages, je présenterai les méthodes et performances obtenues sur un cas d'utilisation d'analyse d'une simulation de 10 ans de données de type LSST (6 milliards de galaxies). Puis je présenterai des développements récents obtenus au LAL en particulier dans le domaine de l'identification des clusters et de la visualisation. Enfin j'esquisserai l’intérêt de combiner du calcul haute-performance a ce type d’approche. Ce travail s’inscrit dans le cadre de l'organisation AstroLab (https://astrolabsoftware.github.io/) qui vise a insuffler de la complexité scientifique dans le traitement des large volume de données.

Your browser is out of date!

Update your browser to view this website correctly. Update my browser now

×