Projets IN2P3 R&D transverse "Calcul&Données"

Europe/Paris
Amphi (CC-IN2P3)

Amphi

CC-IN2P3

21 avenue Pierre de Coubertin 69627 Villeurbanne
Description

Réunion d'information et d'échange consacrée aux projets de R&D transverse ouverte à toutes les personnes intéressées.
La réunion etait accessible à distance.
 

 

Inscription
Participants
Participants
  • Adil Khalfa
  • Andrei Tsaregorodtsev
  • Balázs Kégl
  • Benoit DELAUNAY
  • Bertrand Rigaud
  • Bruno Carlus
  • Catherine Biscarat
  • Cécile Cavet
  • David Bouvet
  • David Chamont
  • David Rousseau
  • Denis PUGNERE
  • Detournay Michèle
  • Emmanuel Le Guirriec
  • Eric Fede
  • Eric Legay
  • Fabio Hernandez
  • Frédéric Azevedo
  • Frédérique Chollet
  • Geneviève Romier
  • Gilles Grasseau
  • Gino Marchetti
  • Guillaume Baulieu
  • Jean Jacquemier
  • Jean-René Rouet
  • Jerome Pansanel
  • Johan Bregeon
  • Loic Tortay
  • Luisa Arrabito
  • Marc Verderi
  • Martin Souchal
  • Nadine NEYROUD
  • Nicolas Fournials
  • Nicolas Menard
  • Pierre Aubert
  • Renaud Vernet
  • Sylvain Ferriol
  • Volker Beckmann
  • Yvan Calas
    • 10:00 10:30
      Accueil 30m
    • 10:30 10:45
      Introduction 15m

      L’IN2P3 a une longue histoire dans la gestion et analyse de grands flux de données ainsi que dans le calcul, l’organisation et la distribution du stockage. Néanmoins, les défis à venir dans les 5-10 prochaines années sont importants. Nous n’y verrons pas seulement un grand nombre de nouveaux projets avec des volumes de données très importants (de l'ordre de la dizaine de pétaoctets par an) entrer dans le jeu mais la déferlante de données qui résultera de la mise à niveau du LHC et de ses expériences sera encore plus significative.
      L'application de nouvelles techniques, algorithmes et workflows est essentielle pour continuer notre travail avec succès. Plusieurs nouveaux projets d'informatique scientifique ont débuté en 2017 au sein de l'IN2P3, et d'autres sont prévus en 2018. Grâce à ces initiatives, l'IN2P3 maintiendra l'institut du CNRS avec une excellente capacité à traiter et analyser le tsunami des données qui nous attendent.

      Orateur: Volker Beckmann (CNRS / IN2P3)
    • 10:50 11:35
      DecaLog 45m

      10 ans pour gagner un facteur 10 dans le Logiciel

      • Un MasterProjet pour... 15m

        Faces aux évolutions rapides des technologies informatiques, il est impossible à des ingénieurs ou physiciens de les maîtriser de façon isolé. La motivation de Decalog est de fédérer les efforts dans le domaine du calcul HPC pour qu'ils soient, en premier lieu, partagés aux profits de nos petites et grandes collaborations mais aussi de se forger une vision. L'efficacité d'une simulation ou analyse, joue un des tous premiers rôles dans le processus le "sélection" d'un code. Les sujets autour de cette motivation sont nombreux : algorithmes, implémentations, parallélisme, vectorisation, c++, noyaux de calcul, génération de code, architectures de processeurs, GPU, FPGA, compilateurs, précision numérique, optimisations des flux de données, mais aussi machine learning, en passant par les conteneurs, les systèmes embarqués, ... ainsi que leurs combinaisons. Les mutations de ces technologies étant de plus en plus rapides la composante adaptation/portabilité des développements devient cruciale et laisse entrevoir la question "faut-il concevoir, développer des codes autrement ?"
        https://gitlab.in2p3.fr/CodeursIntensifs/DecaLog/wikis/home

        Orateur: Gilles Grasseau (LLR IN2P3/CNRS)
      • Reprises 15m

        Nous souhaitons évaluer et promouvoir les technologies prétendant combiner une écriture générique de haut-niveau, portable et pérenne, avec une génération de code performant spécifique à chaque matériel (OpenCL, OpenACC/OpenMP, Pythran, Kokkos, ...). Nous souhaitons également améliorer la reproductibilité des résultats en contexte parallèle, et re-examiner le crédo de la double précision, en s'appuyant sur les outils d'arithmétique stochastique (Verrou, Verificarlo, Cadna).
        https://gitlab.in2p3.fr/CodeursIntensifs/DecaLog/wikis/Reprises

        Orateur: David Chamont (LAL - IN2P3 - CNRS)
      • ComputeOps 15m

        Le projet ComputeOps vise à étudier les technologies de conteneur pour le calcul haute performance HPC (High Performance Computing). Ce projet fait partie du Master Project IN2P3 DecaLog.
        Le mouvement "DevOps" amène de plus en plus les développeurs à livrer leurs codes accompagnés d’une image de conteneur (machines virtuelles légères). Ainsi, l'application peut être déployée beaucoup plus facilement, et dans un contexte d'exécution similaire à celui du développeur, sans nécessiter l'intervention d'un administrateur pour installer des bibliothèques applicatives spécifiques. Docker est l'outil emblématique de ce mouvement.
        Ce concept se diffuse maintenant à grande vitesse dans le monde du cloud et des supercalculateurs ; dans ce dernier cas, plutôt autour de l'outil Singularity. Pour se garder la possibilité d'utiliser ces ressources de calcul, et bénéficier de la souplesse apportée par les conteneurs, il devient vital de préparer l'usage de ces conteneurs dans les disciplines protées par l’IN2P3 et dans nos grilles de calcul.
        Le projet est présenté en détail au lien suivant qui hébergera aussi les codes développés pendant le projet :
        https://gitlab.in2p3.fr/CodeursIntensifs/DecaLog/wikis/ComputeOps

        Orateur: Cécile Cavet (APC)
    • 11:45 12:30
      Machine Learning group - CompStat 45m

      Motivated by the shortcomings of traditional data challenges, we have developed a unique concept and platform, called Rapid Analytics and Model Prototyping (RAMP), based on modularization and code submission. Open code submission allows participants to build on each other’s ideas, provides the organizers with a fully functioning prototype, and makes it possible to build complex machine learning workflows while keeping the contributions simple. We will start this presentation by describing the context and motivation, the guiding design principles, and some of the technical details (front and backend) of the platform. We will then walk you through some of the most interesting workflows and applications (e.g., anomaly detection in particle physics detectors, classifying molecular spectra for safe drug administration, spatio-temporal time series prediction in climate science). In the last third of the talk we will present a preliminary analysis of the RAMPs that touches on both the technical (machine learning) aspects of the tool and on the management of crowdsourcing data analytics.

      More information:
      https://drive.google.com/open?id=0BzwKr6zuOkdRNmQ0Q3djMTBzY2s

      Orateurs: Balázs Kégl (LAL/CNRS), David Rousseau (LAL-Orsay)

      Motivated by the shortcomings of traditional data challenges, we have developed a unique concept and platform, called Rapid Analytics and Model Prototyping (RAMP), based on modularization and code submission. Open code submission allows participants to build on each other’s ideas, provides the organizers with a fully functioning prototype, and makes it possible to build complex machine learning workflows while keeping the contributions simple. We will start this presentation by describing the context and motivation, the guiding design principles, and some of the technical details (front and backend) of the platform. We will then walk you through some of the most interesting workflows and applications (e.g., anomaly detection in particle physics detectors, classifying molecular spectra for safe drug administration, spatio-temporal time series prediction in climate science). In the last third of the talk we will present a preliminary analysis of the RAMPs that touches on both the technical (machine learning) aspects of the tool and on the management of crowdsourcing data analytics.

      More information:

      https://drive.google.com/open?id=0BzwKr6zuOkdRNmQ0Q3djMTBzY2s

    • 12:30 14:00
      Pause Déjeuner 1h 30m
    • 14:00 14:20
      DIRAC 20m

      Le projet DIRAC développe un logiciel de type « interware » pour intégrer différentes ressources de calcul et de stockage de données en une seule infrastructure avec un accès transparent pour les utilisateurs. Ce logiciel permet de créer et gérer des flux des tâches complexes avec accès aux ressources de types HTC, HPC ou Cloud en fournissant une interface simple et compréhensive. Les services basés sur le logiciel DIRAC sont offerts aux utilisateurs de différentes grilles de calcul, y compris France-Grilles et EGI.

      Orateur: Andrei Tsaregorodtsev (Aix Marseille Univ, CNRS/IN2P3, CPPM, Marseille, France)
    • 14:20 14:40
      CoreGEANT 20m

      Le projet Geant4 avait débuté il y a près de 25 ans au CERN avec le programme RD44 devant évaluer, pour la période du LHC qui s'ouvrait, l'intérêt des technologies Orientées Objet pour la modélisation de la simulation du transport des particules ionisantes dans la matière. Conçu à partir d'un coeur générique capable d'accepter la description de la physique sous forme de "plug-in", Geant4 a montré une grande capacité d'adaptation bien au-delà de la physique des hautes énergies et est aujourd'hui largement utilisé en physique nucléaire, médecine et imagerie nucléaire, spatial, science des matériaux, sécurité intérieure, etc.
      Geant4 a connu plusieurs évolutions notables, la dernière étant la possibilité d'exploiter le mode multi-threading, avec le processing en parallèle des évènements. Une telle évolution permet aux grosses applications de type LHC de pouvoir tirer profit de la puissance de calcul des plateformes many-core, sans être limitées par des problèmes de saturation mémoire.
      L'in2p3 a toujours joué dans Geant4 un rôle important, et moteur dans plusieurs domaines. Cette présentation fera un rappel de l'historique de Geant4, de ses capacités et domaines d'applications, exposera le mode multi-threading de Geant4 et ses performances. Elle soulignera ce qui se fait à l'in2p3 et elle mentionnera un certain nombre de pistes de développement qu'il serait envisageable de poursuivre à l'in2p3, et en France, tant sur le plan de la physique, que sur celui d'une meilleure exploitation des architectures modernes.

      Orateur: Marc VERDERI (LLR)
    • 14:40 15:00
      PreSoft 20m

      Les objectifs de PRESOFT sont :
      - de développer des procédures et modèles réalistes pour les plans de gestion du logiciel qui pourraient être proposés dans les laboratoires.
      - d’étudier la faisabilité, les bénéfices par rapport aux contraintes, l’acceptabilité et les conditions pour une réelle adoption par les chercheurs, les thésards ou les responsables des projets de développement logiciel pour leur propre production de logiciels de recherche de plans de gestion du logiciel.
      - d’évaluer l’impact pour une unité de l’implémentation de plans de gestion du logiciel sur sa connaissance du logiciel de recherche développé en son sein et sa gestion. Par exemple, sur la gestion des actifs logiciels internes, le coût de la pérennisation du logiciel, sa valorisation, les compétences internes...
      La présentation donnera l’avancement du projet, les perspectives et les collaborations en cours

      Orateur: Geneviève Romier (CNRS-IN2P3 CC-IN2P3)
    • 15:00 15:20
      Beta 20m
      Orateur: Frederic Suter (CC IN2P3 / CNRS)
    • 15:20 15:40
      Workflows4NP 20m
      Orateur: Eric Legay (CSNSM)