Séminaires LLR

Apache Spark for physicists

par stephane plaszczynski (CNRS)

Europe/Paris
Salle de conference 05-2021 (LLR)

Salle de conference 05-2021

LLR

Description

L’environnement de travail Apache Spark est tres utilisé dans l'industrie pour organiser et analyser les grands volumes de données. Je montrerai que cette "technologie Big Data" peut également être appliquée en science sans trop de souffrances, en particulier en astrophysique où les volumes de données des prochains grands relevés de galaxies augmentent drastiquement. A partir d'une simulation simple mais réaliste de 10 ans de données du telescope  LSST, je montrerai les divers intérêts d'une telle approche pour l'analyse interactive d'un relevé de 6 milliards de galaxies. Je développerai plutôt l'aspect utilisateur et montrerai par des exemples simples et pratiques en python comment obtenir d'excellentes performance sur un cluster de taille modeste.