14e Journées Informatiques IN2P3/IRFU

Europe/Paris
Le Domaine Port aux Rocs la Côte sauvage - 44, avenue Port Val 44490 LE CROISIC
Description

L’édition 2022 des Journées Informatiques de l'IN2P3/IRFU aura lieu du lundi 14 novembre à 14h au jeudi 17 novembre à 12h.

Ces 14ème Journées Informatiques se tiendront uniquement en présentiel, au Croisic (44), domaine de Port au Rocs. Le nombre de places maximum est fixé à 120 personnes, l'inscription est obligatoire, et soumise à approbation. La priorité sera donnée aux collègues ayant une présentation, ainsi qu'à ceux qui resteront les 4 jours complets.

À l'heure où la sobriété devient un enjeu malgré l'augmentation croissante de l'utilisation des ressources informatiques, l'utilisation la plus efficace possible des infrastructures devient critique. C’est pourquoi nous proposons d’organiser les présentations de ces JIs autour du fil rouge "Performance et sobriété ?". Cela permettra de discuter de tous sujets comme à l'ordinaire, tout en gardant à l’esprit les possibilités, attentes ou difficultés données par ces nouveaux défis avec lesquels nous devrons composer dans les années à venir.

Nous vous invitons dès à présent à soumettre vos résumés de contributions. Trois formats de présentation sont proposés :

  • exposé de 20 minutes +10 minutes de questions ;
  • exposé dit "éclair" de 3 minutes (session commune pour les questions) ;
  • format "plus" souple, pour les piscines (didacticiels), d'une durée d'environ une heure.

La date limite de soumission de contributions est fixée au 03 octobre 2022, à midi.

Notez que la date limite d'inscription est quant à elle fixée au 27 octobre 2022, à minuit.

Lors de l'inscription, vos horaires d'arrivée et de départ sont demandés. Bien qu'optionnelles, ces informations nous permettront de fixer les horaires de navettes qui relieront la gare du Croisic au centre de Le Domaine Port aux Rocs. Nous vous encourageons donc fortement à nous les communiquer si vous souhaitez profiter de ce service.

Les présentations seront enregistrées, et proposées par la suite par le service du webcast IN2P3. Souhaitant revenir à un mode en présentiel uniquement, on ne proposera pas de lien Zoom pour suivre ces journées à distance.

 

Comité d'organisation
Participants
  • Alexandre Boucaud
  • Amar HAMI
  • Arnaud CHIRON
  • Aurélien Bailly-Reyre
  • Benjamin Mare
  • Benoit Delaunay
  • Bernard Chambon
  • Bertrand Simon
  • Bogdan Vulpescu
  • Catherine Seznec
  • Cayetano Santos
  • Christophe Collard
  • Corentin Allaire
  • Cécile Cavet
  • Cécile Evesque
  • Damien VINTACHE
  • David Chamont
  • Denys SAVCHENKO
  • Dominique Cathala-Martinez
  • Edith Knoops
  • Emmanuel Medernach
  • Eric Fede
  • Eric Legay
  • Fabien Wernli
  • Florian Vernotte
  • Francois LEGRAND
  • François Talour
  • Françoise BOUVET
  • Françoise Virieux
  • Gabriele Mainetti
  • Gino Marchetti
  • Grégory Perrin
  • Guillaume Cochard
  • Guillaume Philippon
  • Hadrien Grasland
  • Imed MAGROUNE
  • Isabelle Moreau
  • Jahson Babel
  • Jean Multigner
  • Jean-Claude Chevaleyre
  • Jean-Marc Colley
  • Jean-Michel Barbet
  • Jean-Michel Gallone
  • Jerome Fulachier
  • joel surget
  • Julius Hrivnac
  • Jérôme ODIER
  • Khalil Chawoshi
  • Laurent Caillat-Vallet
  • Laurent Fortin
  • laurent noblet
  • Martin Souchal
  • Maude Le Jeune
  • Michel Jouvin
  • miguel Barbera villalba
  • NABIL GARROUM
  • Nicolas BELLEMONT
  • Nicolas RUDOLF
  • olivier dadoun
  • Olivier DREVON
  • Olivier RIDOUX
  • Osman Aidel
  • Patricia Warin-Charpentier
  • Pavel Zakharov
  • Philip Davis
  • Philippe Corriea
  • Philippe Malbranque
  • Pierre Aubert
  • Pierre-Emmanuel Brinette
  • Pierre-François Honoré
  • Pierrick LE CORRE
  • Raymond Uhlmann
  • Roland Boda
  • Roméo Molina
  • Sabine Crépé-Renaudin
  • Sebastien Binet
  • Sebastien Zappino
  • Sylvain Caillou
  • Sylvain Ferriol
  • Sylvain Joube
  • Sébastien Gadrat
  • Thierry CHAVENTRÉ
  • Thomas AMARO
  • Thomas Kachelhoffer
  • Vincent Lafage
  • Yoann Kermorvant
    • 09:00 10:30
      Développement
      • 09:00
        Analyse des coûts de compilation de programmes C++ 30m

        Le C++ est un des langages de programmation qui offre le plus de contrôle sur son processus de compilation, via des mécanismes comme constexpr et la spécialisation de template. Bien utilisées, ces possibilités permettent d'accélérer l'exécution en préparant au maximum le travail du programme pendant sa compilation. Mais si l'on en abuse, elles peuvent aussi rendre la compilation très lente, voire si gourmande en mémoire qu'elle en devient impossible.

        Dans cette contribution, je présenterai un outil que j'ai développé pour mieux comprendre ce qui est coûteux dans le processus de compilation d'un programme C++, afin de pouvoir plus facilement résoudre ce type de problème et faire de meilleurs choix de conception pour prévenir leur apparition.

        Orateur: Hadrien Grasland (IJCLab)
      • 09:30
        Utiliser le NVidia HPC SDK sur MUST 30m

        Depuis novembre 2020 le compilateur nvc++ permet de compiler un programme C++17 directement sur GPU sans passer par Cuda ou d'autres méthodes type Sycl, Kokkos, OpenCL.

        Retour d'experience avec la simulation de la réaction de Gray Scott sur CPU et GPU.

        Orateur: Pierre Aubert (LAPP)
      • 10:00
        Optimisation automatique de la cartographie des materiaux pour Acts 30m

        En physique des particules, la trajectographie joue un rôle central dans le processus de reconstruction d'événements, et constitue un des principaux défis pour les expériences présentes et futures du fait de son fort impact sur la qualité des résultats physiques obtenus. Pour reconstruire ces trajectoires, nous avons recours à différents algorithmes utilisés de manière successive. Chacun de ces algorithmes est paramétré par différentes variables qui doivent être optimisées pour prendre en compte les spécificités du détecteur/de l'expérience, le budget Cpu disponible et les performances espérées.

        Jusqu’alors, ces processus d’optimisations devaient être effectués manuellement par des experts, rendant la préparation de nos algorithmes inefficace et posant des questions sur le maintien à long terme de ces derniers. Mais durant les précédentes tentatives d’appliquer les techniques d’apprentissage automatique à la reconstruction de trajectoire (TrackML challenge), il a été montré que l’optimisation de ces algorithmes pouvait être faite de manière systématique en s’appuyant directement sur les données. La communauté Acts (A Common Tracking Software, un logiciel de trajectographie open source destiné à remplacer celui d’ATLAS) travaille donc activement à implémenter cette approche pour les différents algorithmes de la trajectographie.

        Nous avons appliqué cette approche à la génération de carte de matériaux, un modèle simplifié des matériaux présent dans notre détecteur, utilisé dans la reconstruction des particules. Ces cartes sont indispensables à la bonne prise en compte des interactions particule/matière et donc à la bonne reconstruction des trajectoires. Elles demandent par contre de nombreuses heures de travail à un expert pour être optimisées. Notre algorithme peut générer des cartes d'une qualité comparable en demandant une implication minimale des experts.

        Orateur: Corentin Allaire (IJCLab)
    • 10:30 11:00
      Pause Frugale 30m
    • 11:00 12:30
      Développement
      • 11:00
        Calcul performant et pratique avec C++20 30m

        Dans le contexte du calcul haute performance et d'autant plus dans le cas du calcul scientifique et de la physique des hautes énergies, l'ergonomie et la performance du code de calcul sont deux aspects souvent antagonistes

        Le code se doit d’être performant au niveau algorithmique et au niveau de son adéquation avec les architectures parallèles modernes. Au niveau ergonomie, il est vital que le code écrit par et pour des scientifiques soit compréhensibles par ces derniers. Afin de bénéficier du meilleur de ces deux aspects, il convient d'utiliser des structures de données de haut niveau et des algorithmes permettant de simplifier le code tout en conservant un haut niveau de performance.

        Dans cette présentation, nous allons présenter quelques éléments de C++20 qui permettent de construire de tels composants :
        - les concepts, qui permettent de poser des contraintes sur les types et valeurs passés en paramètre d'un template,
        - l'évaluation à la compilation, qui a pas mal évolué avec constexpr et consteval.

        Nous verrons comment ces éléments peuvent s'intégrer dans un code existant, et comment ils peuvent être combinés pour construire un système de gestion de données numériques multi-dimensionelles simple et efficace.

        Orateur: Sylvain Joube (LISN - IJCLab - Université Paris-Saclay)
      • 11:30
        𝔽, ou les malheurs du calcul 30m

        Je rappelle les problèmes inhérents au calcul avec des nombres à virgules flottante en les illustrant par quelques cas concrets dans notre activité de développeur pour des codes de physiques. J'insiste notamment sur les illusions associées au terme de ``precision´´ qu'on utilise pour qualifier la résolution de nos variables à virgule flottante. Je décris aussi quelques technique de self-defense et quelques outils comme l'arithmétique stochastiques (en lien avec la présentation de Roméo Molina), utilisés pour garantir la précision ainsi que le sens de nos calculs, tout en recherchant la performance.

        Orateur: Vincent Lafage (CNRS)
      • 12:00
        Contrôle du calcul dans AGATA : du cristal à la mesure finale 30m

        Le projet AGATA a pour objectif de construire un spectromètre de rayons gamma 4pi composé de 180 cristaux de germanium. Chaque cristal est divisé en 36 segments qui permettent d’identifier précisément les interactions qui se produisent dans le cristal et donc les caractéristiques du rayon gamma.
        Lorsqu’un rayon gamma interagit avec le germanium il produit un signal électrique dans le segment concerné mais aussi dans les segments voisins. En comparant ces signaux avec une base de signaux de référence, on peut déterminer le lieu exact de l’interaction à 5mm près. Cette étape s’appelle le Pulse-Shape Analysis (PSA), ou analyse des formes d’impulsions, et doit être effectuée en direct en raison de la quantité de données à traiter.

        Le code du PSA a presque une quinzaine d’années et il souffre d’un important problème de cache-miss qui grève ses performances et que nous avons validé à l’aide de l’outil perf.

        Par ailleurs, dans la chaîne d’exécution menant au PSA, on observe des conversions successives des données, celles-ci sont échantillonnées sur 14 bits par l’électronique, ce qui correspond donc à une douzaine de bits d’information, puis converties en entiers 16 bits, puis finalement en flottants 32 bits. Ces conversions successives nous poussent à nous intéresser à la précision numérique réelle des résultats et donc à chercher la précision la plus faible dans laquelle on peut effectuer ces calculs.

        Notre travail a donc deux objectifs concomitants : réduire le cache-miss du PSA en diminuant le volume des données accédées tout en contrôlant la validité numérique de nos résultats.
        Pour cela, nous avons instrumenté le code du PSA afin de pouvoir y utiliser facilement différents types (single, double, half) et de le contrôler à l'aide de l’outil CADNA qui permet d’évaluer le nombre de chiffres significatifs exacts de nos résultats. Cette présentation sera l’occasion d’exposer les résultats obtenus lors de ces expériences.

        Orateur: Roméo Molina (CNRS)
    • 12:30 14:00
      Déjeuner Frugal 1h 30m
    • 14:00 16:30
      Activités

      Une activité super intéressante

    • 16:30 17:00
      Pause Frugale 30m
    • 17:00 18:30
      Piscine

      Piscine

      • 17:00
        Analyse de performances linux avec perf 1h 30m

        Pour optimiser les performances d'un programme, il faut d'abord comprendre ce qui les limite. Sous Linux, l'un des outils de référence est le profileur perf, qui bénéficie d'une intégration au noyau et peut de ce fait avoir une vision complète de l'utilisation des ressources système par un ou plusieurs processus. Dans ce TP, vous apprendrez à maîtriser ses possibilités.

        Orateur: Hadrien Grasland (IJCLab)
    • 19:30 21:00
      Diner frugal (ou pas) 1h 30m
    • 09:00 10:00
      Sécurité
      • 09:00
        Création d'un bastion SSH sécurisé et redondé 30m

        Dans le cadre de la rénovation de l'infrastructure ainsi que l'amélioration de l'expérience utilisateur, les administrateurs informatiques de l'IRFU cherchent à proposer un cluster de bastions SSH en haute disponibilité, tout en mettant en place une sécurité suffisante pour un service ouvert sur internet.

        Plusieurs problèmes se posent alors: Comment diminuer au maximum la surface d'attaque ? Comment proposer une haute disponibilité intelligente ? Quelle niveau de sécurité est demandé par le RSSI pour ces serveurs ? Comment le mettre en place ? Comment séparer le flux d'administration du flux ssh des utilisateurs ?

        Nous verrons l'architecture de la solution technique envisagé (Haproxy+keepalived pour le "front", et un Double SSH + SELinux + fail2ban + clamAV + rkhunter + check_mk + filebeat pour le "back"), ainsi que ses limites et son évolution (actuelle ou futur).

        Orateur: Benjamin Mare
      • 09:30
        Tentative de Phishing à l'IRFU 30m

        Une tentative de phishing très ciblée a été lancée sur l'IRFU les 29 juillet ,1er aout et 17 aout 2022...

        Je reviendrai sur le déroulé des opérations, les conséquences, les problèmes liés au travail à distance... Et j'expliquerai les différents outils qui ont permis en partie de limiter les conséquences...

        Joel Surget

        Orateur: joel surget (CEA/Saclay IRFU)
    • 10:00 10:45
      Présentations Flash
      • 10:00
        Pycoa: Python pour comprendre le Covid-19 5m

        PyCoa (www.pycoa.fr) est un ensemble de codes Python qui s’adresse aux personnes souhaitant s’approprier et étudier les données
        relatives à la pandémie du Covid 19: lycéens, étudiants, analystes stratégiques, data journalistes et scientifiques.

        Notre logiciel, contrairement à un Dash Board classique, présente l'intérêt de pouvoir accéder directement aux données de la Covid-19
        depuis leurs sources et ce avec une licence libre de droit (licence MIT).

        Il fournit:
        • un accès simple aux bases de données sur la Covid-19 (2 mondiales et 15 nationales dont plusieurs de gatagouv)
        • des outils pour représenter et analyser les données du Covid-19, comme des séries temporelles, des histogrammes ou des cartes
        et ce en 2 lignes de code seulement !
        Notons qui peut être utilisé également pour analyser les données du virus Monkeypox.

        Orateur: olivier dadoun (LPNHE)
      • 10:05
        Tiny ML/DL : Voice Recognition on MCUs 5m

        AI applications on tiny devices : Can we run a full CNN models for voice recognition or object detection on a Micro Controller Units (MCU) with only 516 KB of RAM ?
        In this quick intervention I explain the need, the continuous process of optimization and the techniques of improvement of the codes which allow to make inferences on CNN models on ARM or RISK-V cards for real-time systems (Arduino like).

        Orateur: Imed MAGROUNE
      • 10:10
        CODEEN : COllaborative DEvelopment ENvironement for Euclid spacecraft 5m

        CODEEN (COllaborative DEvelopment ENvironement) est une plateforme de développement collaboratif basée notamment sur les principes et bonnes pratiques du développement basé sur les tests, de l'intégration continue et de la livraison continue. L'objectif de la plateforme est d'une part d'automatiser l'extraction des codes scientifiques, la construction de ces codes et l'exécution des tests, des outils de contrôle qualité, la génération de la documentation et la publication de tableaux de bord correspondants. Cette plateforme est hebergée dans le cloud Openstack du Centre de Calcul IN2P3.

        Orateurs: Martin Souchal (APC), Pavel Zakharov ({IRD}UMR7164)
      • 10:15
        Développement d’un Framework basé sur PyTorch Lightning pour l’entraînement de Graph Neural Network (GNN) pour le tracking 5m

        Les phases de R&D en apprentissage profond (Deep Learning) peuvent être coûteuses en temps d’utilisation de ressources CPU et GPU. La définition de plan d’expériences claires, permettant une exploration efficace des hyperparamètres, l’évaluation des performances et le traçage des conditions expérimentales permet de tendre vers une utilisation plus efficace des ressources et donc vers plus de sobriété énergétique tout en renforçant la robustesse et la reproductibilité des résultats.

        Nous présentons des travaux réalisés récemment pour le développement d’un framework de R&D commun aux équipes du L2I-Toulouse et le projet ExaTrkx (Lawrence Berkley National Laboratory, University of Illinois) dans le cadre de la collaboration visant à établir un algorithme de reconstruction de traces basé sur les Graph Neural Network (GNN). Le framework est basé sur PyTorch Lightning et tend à conjuguer qualité logicielle (dataflow, modularité, intégration de test) et une logique spécifique aux entrainements et à l’évaluations des modèles.

        Orateur: Sylvain Caillou (L2I Toulouse, CNRS/IN2P3, UT3)
      • 10:20
        frugalité dans un contexte HPC 5m

        Il nous est demandé de proposer des plans pour répondre à des restrictions sur l’approvisionnement électrique.
        Notre salle machine apparaît comme un consommateur important pour l’IRFU (20% de la consommation totale de l'institut).Nous avons donc recherché des stratégies pour diminuer cette consommation en cas de pénurie.

        Orateur: Pierre-François Honoré (CEA/DRF/Irfu - Université Paris Saclay)
      • 10:25
        Bilan des actions CCRI de l'année 5m
        Orateur: Françoise BOUVET (IJCLab)
      • 10:40
        Compliation des présentations 5m
    • 10:30 11:00
      Pause Frugale 30m
    • 11:00 12:00
      Gestion des données
      • 11:00
        L'écosystème de métadonnées AMI 30m

        AMI (ATLAS Metadata Interface) est un écosystème générique pour l’agrégation et la transformation métadonnées ainsi que la sélection de données scientifiques par critères de métadonnées. Bénéficiant de 20 ans d'expérience dans le contexte du LHC (Large Hadron Collider), l'écosystème profite à plusieurs collaborations scientifiques dont ATLAS, NIKA2, n2EDM, ...

        Nous présenterons comment déployer une stack AMI complète, incluant une démo fonctionnelle, à l'aide de Docker.

        En particulier, nous détaillerons trois composantes essentielles de l'écosystème :

        • AWF (AMI Web Framework), l'environnement permettant de développer simplement des interfaces utilisateurs,
        • MQL (Metadata Querying Language), un langage de domaine spécifique permettant d'effectuer des requêtes sans connaitre dans la structure relationnelle des bases de données,
        • le serveur d'agrégation de métadonnées avec son interface Web d'administration et son outil de conception de pipelines de tâches.
        Orateur: Jérôme ODIER (CNRS/LPSC)
      • 11:30
        Bases de données fédérées 30m

        Je présenterai l'architecture d'accès aux données de manière transparente en utilisant plusieurs types de bases de données, à savoir base de données SQL, base de données NoSQL et base de données Graph.
        Chaque base de données est utilisée pour le domaine où elle est la plus appropriée et un accès inter-technologie transparent est offert aux utilisateurs.

        Les points forts et faibles des trois technologies seront discutés, ainsi que diverses stratégies pour orchestrer leurs inter-opérations.

        L'architecture sera illustrée sur la mise en œuvre du
        stockage du projet Fink, utilisant les technologies JanusGraph et HBase.

        Orateur: Julius Hrivnac (IJCLab)
    • 12:00 14:00
      Déjeuner Frugal 2h
    • 14:00 14:30
      Patrimoine informatique
      • 14:00
        Préservation du patrimoine informatique 30m

        Ou n'attendons pas que nos vieilles bécanes se fossilisent ...

        Peu de gens savent que le premier micro-ordinateur de l'histoire est français : le Micral-N. L'un des derniers exemplaires a quitté le pays en 2017 lors d'une vente aux enchères remportée par le co-fondateur de Microsoft.

        La préservation du patrimoine numérique et informatique est un enjeu majeur de notre époque. De nombreuses initiatives existent en France, mais sont portées principalement par des associations ou des personnes privées. Bien qu'extrêmement motivés, les acteurs de la préservation numérique n'ont que peu de moyens, et une portée limitée. Au CC-IN2P3, anciennement CCPN, nous avons connu les débuts de l'informatique. Nous avons utilisé des machines mythiques comme le mainfraime IBM 3081 ou le NeXTcube pour n'en citer que deux. De nombreux labos de l'IN2P3 ont également possédé voire conçu des machines uniques au monde, comme le LPNHE avec le CHADAC. Que sont devenues ces reliques du passé numérique de la France ? Reste-t-il des traces de leur existence ? Sans vouloir "spoiler", la plupart ont terminé (ou terminent encore aujourd'hui) dans des bennes, lors de déménagements de labos ou de nettoyages du printemps.

        Mais ne désespérons pas : il existe au sein de l'IN2P3 des personnes passionnées de rétro-informatique, et qui ont conscience de l'importance du patrimoine. Ils seront à même d'identifier et évaluer l'interêt de conserver les vieux équipements qui sont peut-être encore dans votre labo. Avant de vider vos caves dans des bennes, pensez à les contacter. Au cours de cette présentation nous vous présenterons les initiatives au sein de l'institut, notamment le musée du CC-IN2P3 et la collection du LPNHE.

        Orateurs: Fabien Wernli (Sysadmin), Pierre-Emmanuel Brinette (CC IN2P3), olivier dadoun (LPNHE)
    • 14:30 16:00
      Gestion de ressources de calcul
      • 14:30
        Découverte de Apache Airflow 30m

        Apache Airflow est un puissant gestionnaire de workflow souvent utilisé pour la transformation de données.
        Dans cette présentation, vous découvrirez son fonctionnement et ses différentes fonctionnalités en s’appuyant sur des cas d'utilisation au Centre de Calcul de l’IN2P3.

        Orateur: Florian Vernotte (CC-IN2P3)
      • 15:00
        La plateforme de notebooks Jupyter au CC-IN2P3 30m

        Depuis un peu plus de 2 ans le CC-IN2P3 propose une plateforme de notebooks Jupyter.
        La présentation fera la point sur les composants logiciels sous-jacents mais aussi sur les services offerts par cette plateforme comme, par exemple, la possibilité de calcul sur GPU ou l'utilisation du framework Dask pour distribuer des tâches de calcul sur la ferme de batch SLURM.

        Orateur: Bernard Chambon (CC-IN2P3)
      • 15:30
        BBQ (Beautiful Batch Query) 30m

        Le projet BBQ (Beautiful Batch Query) du Centre de Calcul de l'IN2P3 (CC-IN2P3) propose une interface web pour interroger l'état des fermes de calcul (HTCondor et Slurm, et dans le passé UGE) du CC-IN2P3. Actuellement, il permet de répondre aux besoins suivants :

        • Suivi opérationnel au niveau des jobs, utilisateurs et machines, avec pour certains éléments (jobs GPU, jobs en attente, etc.) des pages détaillées pour suivre au mieux l'état des fermes ;
        • Historique des jobs et analyse post-incident ;
        • Recherche de jobs selon des critères avancés ;
        • Quelques statistiques.

        Datant d'il y a moins de 2 ans, c'est un outil encore récent et en pleine évolution, et de nouvelles fonctionnalités sont réguliérement ajoutées afin d'étudier aux mieux les performances de nos fermes de calcul et optimiser leurs usages et leur consommation d'énergie.

        Dans le cadre des Journées Informatiques, nous vous proposons une présentation au format de 20 minutes durant laquelle nous pourrions aborder les point suivant :

        • Besoin : à quelle demande répond BBQ, historique et explication de certains choix ;
        • Fonctionnel : présentation de l'outil et de ces fonctionnalités principales ;
        • Techniques : quelques choix techniques intéressants ;
        • Futur : évolutions envisagées ou possibles.
        Orateur: Guillaume Cochard (CC-IN2P3)
    • 16:00 16:30
      Pause Frugale 30m
    • 16:30 18:30
      Gestion de ressources de calcul
      • 16:30
        Mise en place au CC-IN2P3 d'une plateforme d'analyse interactive pour les données de l'observatoire Vera C. Rubin 30m

        L’observatoire Vera C. Rubin, en phase finale de construction au Chili, avec son télescope de 8,4 mètres et sa camera de 3.2 giga pixels, va produire plus de 20TB des données chaque nuit, 300 nuits par an. 50% de ces données seront traitées au CC-IN2P3 afin de produire des images prêtes pour la science ainsi qu'un catalogue astronomique. Au bout des 10 années d'exploitation, un jeu de données composé de plus de 7 millions d'images, de 20 milliards de galaxies et 17 milliards d'étoiles ainsi que leurs propriétés physiques associées sera constitué.

        Afin de permettre aux chercheurs de l'Institut d'exploiter scientifiquement les données de cet instrument unique, nous évaluons actuellement au CC-IN2P3 une base de données pour héberger le catalogue astronomique ainsi qu'une plate-forme d'analyse interactive des données. Nous présenterons l'état d'avancement de nos travaux et une vue d'ensemble des capacités de ces outils.

        Orateur: Gabriele Mainetti (CC-IN2P3)
      • 17:00
        Déploiement et gestion d’un parc machine avec Cloudinit et Ansible 30m

        Je présenterai notre nouveau système d'installation automatique, configuration et maintenance de nos postes de travail et serveurs basé sur TFTP+Cloudinit+Ansible.

        Orateur: Francois LEGRAND ({CNRS}UMR7585)
      • 17:30
        Kubernetes, une histoire d'API 30m

        Dans cette présentation, nous discuterons des intérêts des API Kubernetes (appelées Ressources) et en quoi on t'elles permis l'évolution et l'adoption globale de Kubernetes.

        Orateur: Jean Multigner (LAPP)
      • 18:00
        An Exact Algorithm for the Linear Tape Scheduling Problem 30m

        Les bandes magnétiques sont souvent considérées comme un moyen de stockage dépassé, mais sont encore utilisées pour stocker de grandes quantités de données. Les performances en lecture dépendent en partie de l'ordre dans lequel les fichiers demandés sont accédés sur une bande donnée. Cette problématique n'est toutefois presque pas étudiée dans la littérature de recherche en informatique. Dans cet exposé, nous étudions le problème de minimisation du temps de lecture moyen sur une bande magnétique linéaire. Nous proposons un algorithme polynomial et optimal, ce qui était conjecturé impossible, et évaluons l'amélioration obtenue sur des données issues de la bandothèque du CC-IN2P3.

        Orateur: Bertrand Simon
    • 19:30 22:00
      Diner de gala frugal 2h 30m
    • 09:00 10:00
      Prospectives
      • 09:00
        La programmation des processeurs quantiques 30m

        Des processeurs quantiques sont aujourd’hui à la disposition du publique via le service Amazon Braket ou via IBM Quantum Experience, par exemple, gratuitement ou payant, et sont utilisés par un grand nombre d’utilisateurs intéressés par ce nouveau paradigme de calcul. Des processeurs beaucoup plus performants commencent à équiper quelques laboratoires au monde et des partenariats sont mis en place pour permettre l’accès aux communautés des chercheurs, comme le CERN, à ces outils extrêmement complexes et coûteux. Les réalisations techniques, longtemps dépassés par les avancements théoriques, se déclinent aujourd’hui dans plusieurs approches, même si il n’y a pas encore une technologie unique promettant à résoudre tous les problèmes technologiques dans ce domaine.
        Je vais présenter un exemple de programmation d’un processeur quantique et je vais essayer d’expliquer en quoi consiste la réalisation des codes informatiques pour ces dispositifs de calcul.

        Orateur: Bogdan Vulpescu (Laboratoire de Physique de Clermont)
      • 09:30
        Gestion des ressources en mémoire des GPU pour l’entraînement de Graph Neural Network (GNN) sur de larges graphes. 30m

        L’entraînement de modèles GNN sur de larges graphes est très couteux en mémoire. Cela représente un défi majeur pour les expériences dont les données éparses sont représentées par des graphes de très grande taille. Nous expliquerons les raisons de ce coût en mémoire spécifique aux architectures GNN et pourquoi les problèmes de dépassement de mémoire ne peuvent pas être résolus avec des approches multi-GPU de type distribution de données (Distributed Data Parralel), ou de type distribution du modèle (Distributed Model Parallel).
        Nous présenterons les techniques de offloading et de checkpointing comme solutions potentielles au dépassement mémoire mais avec un coût en temps de calcul supplémentaire.
        Avoir une utilisation plus efficace de la ressource GPU en cherchant le meilleur compromis entre la consommation en mémoire et temps de calcul permet de réduire le temps d’entraînement des modèles GNN, accélérer la recherche et tendre vers plus de sobriété énergétique.
        Nous présenterons une étude comparative des performances en termes de temps de calculs et de consommation mémoire entre ces deux techniques appliquées à un cas concret : L’entraînement de modèles GNN pour la reconstruction de traces de particules chargées à partir de simulation réalisée dans ATLAS-ITk dans les conditions HL-LHC.

        Orateur: Sylvain Caillou (L2I Toulouse, CNRS/IN2P3, UT3)
    • 10:00 10:30
      Pause Frugale 30m
    • 10:30 12:00
      Table ronde
      • Comment réguler notre consommation électrique ?
      • Quel(s) Linux pour le CNRS ?
      • Sécurité informatique au CNRS
      • Prolonger la durée de vie des machines oui, mais avec quels logiciels ?
      • Devrions nous optimiser nos programmes pour faire des économies ?
      • Devrions nous arrêter les centres de calculs pour faire des économies ?
    • 12:00 12:10
      Wrap up