Orateur
Description
L'environement de travail Apache Spark est tres utilise dans
l'industrie pour organiser et analyser les grands volumes de donnees.
Je montrerai que cette "technologie Big Data" peut egalement etre
appliqueee en science sans trop de souffrances, en particulier en
astrophysique ou les volumes de donnees des prochains grands releves
de galaxies augmentent drastiquement.
A partir d'une simulation simple mais realiste de 10 ans de donnees du
telescope LSST, je montrerai les divers interets d'une telle approche
pour l'analyse interactive d'un releve de 6 milliards de galaxies.
Je developperai l'aspect utilisateur et montrerai par des
exemples simples et pratiques en python comment obtenir d'excellentes
performance sur un cluster de taille modeste.