11èmes Journées Informatique IN2P3/IRFU

Europe/Paris
VVF Port-Bail, Manche

VVF Port-Bail, Manche

13 Avenue Pasteur BP 11 La Portes des Isles 50580 PORT-BAIL
Description

Les Journées Informatique de l'IN2P3-IRFU réunissent tous les deux ans les informaticiens de l'IN2P3 et de l'IRFU pendant quatre jours.

La version 2018 de ces journées, co-organisées par le GANIL et l'IRFU se déroulera à Port-Bail (Manche) du 1 octobre 2018 au 4 octobre 2018.

Ces journées se veulent un lieu de rencontre de la communauté des informaticiens de l'IN2P3 et de l’IRFU. Elles abordent tous les aspects de la production de programmes, de la mise en œuvre et de l’utilisation de l’informatique au sein de la communauté de la recherche en physique des particules et astroparticules et en physique nucléaire.

Elles sont aussi l'occasion de rencontre avec les autres communautés d'informaticiens de l'enseignement supérieur et de la recherche, notamment par l'intermédiaire des réseaux de métier.

Tous les informaticiens de nos laboratoires peuvent participer à ces journées en tant que conférencier ou orateur (après validation du comité de programme).

Les précédentes éditions ont démontré que ce moment privilégié dédié à nos métiers permettait l'émergence de nouvelles synergies et discussions autour des thèmes d'actualité ou sujets brulants !

Elles sont un lieu d'échanges fructueux et le moyen idéal pour les nouveaux arrivants dans nos instituts de rencontrer leurs collègues des autres laboratoires.

Ces journées ne pourraient voir le jour sans le soutien et le support actif du RI3 (Réseau des Informaticiens de l'IN2P3 et de l'IRFU), de l'IRFU, de l'IN2P3 et du Centre de Calcul de l'IN2P3.

 

    • 15:00 15:10
      Bienvenue aux journées informatiques 2018 10m
      Orateur: Antoine LEMASSON ({CNRS}UPR3266)
    • 15:10 15:40
      Stratégie et enjeux du calcul 30m
      Orateur: Volker Beckmann (CNRS / IN2P3)
    • 15:40 16:10
      Stratégie et enjeux du calcul 30m
      Orateur: M. Pierre-Etienne Macchi (CC-IN2P3)
    • 16:10 16:40
      Le calcul à l'Irfu 30m
      Orateur: Bruno THOORIS (CEA/IRFU/SEDI/LILAS)
    • 16:40 16:50
      Communication du RI3 10m

      Le RI3 est le Réseau des Informaticiens de l'IN2P3 et de l'Irfu. Sa mission
      première est de favoriser l’échange d’information et le partage de compétences au sein de la communauté des informaticiens des 2 instituts. L'organisation de ces journées est l'une des actions récurrentes du RI3, pour ne pas dire son action PHARE.
      Cette courte présentation sera l'occasion d'évoquer les actions du réseau et les évolutions possibles, de rappeler aussi que l'animation du RI3 requiert quelques bonnes volontés.

      Orateur: Frédérique Chollet (LAPP IN2P3)
    • 16:50 17:10
      Pause AM 20m
    • 17:10 18:10
      Groupe de travail "Métiers de l'informatique" 1h
      Orateur: Volker Beckmann (CNRS / IN2P3)
    • 18:40 19:30
      Accueil / Cocktail de bienvenue 50m
    • 19:30 20:30
      Dîner 1h
    • 07:00 08:30
      Petit déjeuner 1h 30m
    • 08:30 10:00
      Présentations plénières: Gestion des données
      Président de session: Michèle Sanguillon (LUPM)
      • 08:30
        Open-source software development in scikit-learn and related projects 30m

        Participation in the development of scikit-learn (bibliothèque de Machine Learning pour python) and collaborative software development in general.

        Orateur: Loïc Esteve (INRIA)
      • 09:00
        LISANode: An end-to-end simulator design using graphs and nodes 15m

        I will present the design of LISANode, a prototype end-to-end simulator for the LISA space mission.
        The LISA mission is an ESA mission designed to detect gravitational waves produced by astrophysical and cosmological sources.
        The purpose of LISANode is to provide a detailed and modular simulation of the instrument and of time-delay interferometry, which is a crucial pre-processing step.
        The originality of LISANode is that any simulation design can be coded by connecting unit nodes into a simulation graph with an easy-to-use Python toolbox. The same toolbox analyzes the graphs for consistency and produces a c++ executable which is run on the fly. LISANode therefore combines the user-friendliness of Python with the efficiency of c++. The graph design allows for easy evolution of the simulator since rudimentary complex nodes can easily be substituted by more realistic complex nodes that reflect the true complexity of instrumental sub-systems.

        Orateur: Dr Marc Lilley (APC)
      • 09:15
        Retour d'expérience d'un projet Agile (SCRUM) 15m

        Pour le développement logiciel d'une partie du "Pipeline" de le l'observatoire CTA, nous avons utilisé la méthode Agile SCRUM pour la gestion de projet.
        Je propose de faire un retour d’expérience sur l'utilisation de cette méthode SCRUM dans une équipe local de 7 personnes.

        Orateur: Jean Jacquemier (LAPP)
      • 09:30
        Projet DIRAC@IN2P3 15m

        Le projet DIRAC@IN2P3, lancé en Janvier 2017, a pour objectif le développement de nouvelles composantes et fonctionnalités du logiciel DIRAC (http://diracgrid.org/), dans une optique de généralisation, afin de le rendre utilisable par une vaste communauté d’utilisateurs. DIRAC est un logiciel libre (sous licence GPL V3) de type interware pour gérer des ressources de calcul distribuées. Il est utilisé par de nombreuses expériences dans le domaine de la physique des hautes énergies, de l’astrophysique et du biomédicale. Les partenaires du projet sont le CPPM, porteur du projet, le CC-IN2P3, CREATIS, le LUPM et l’Université de Bordeaux. Le souci de généralisation est au cœur du projet, qui bénéficie de la contribution de partenaires issus de différentes communautés (LHCb, CTA, biomed) ainsi que des fournisseurs de ressources (CC-IN2P3, Université de Bordeaux).
        Les activités du projet se déclinent selon 3 axes de développement principaux. Le premier axe concerne la gestion des ressources de calcul (HTC, HPC, Cloud). Les ressources HTC sont depuis l’origine intégrées dans le Workload Management System de DIRAC. Néanmoins, nous visons à augmenter la flexibilité d’utilisation des ressources multi-cœurs ou de ressources ayant d’autres spécificités. Les ressources HPC sont également de plus en plus disponibles. Afin de rendre leur utilisation efficace, nous nous proposons de développer un modèle élaboré pour la description de ce type de ressources, supporté également par un mécanisme d’attribution de ressources intelligent. Enfin, bien que DIRAC supporte déjà les ressources Cloud, un effort important reste à réaliser pour rendre effective une utilisation mutualisée et opportuniste de ce type de ressources. Le deuxième volet du projet concerne le développement d’un système de gestion de workflow complexes, basé sur un paradigme complétement ‘data-driven’. L’idée étant d’identifier des schémas communs aux différents types d’utilisateurs, afin de développer un système générique. Enfin, le troisième axe, concerne la gestion des données en masse au travers le concept de ‘dataset’, basé sur la caractérisation des données à travers des métadonnées définies par les utilisateurs.
        Dans cette contribution, nous allons présenter les concepts évoqués dans les trois volets du projet, ainsi que les premiers résultats et l’organisation du projet.

        Orateur: Luisa Arrabito (LUPM)
      • 09:45
        Portail des utilisateurs du CCIN2P3 15m

        Le CCIN2P3 a ouvert en avril dernier un portail web destiné à fournir un point d'entrée aux services du Centre pour la communauté de ses utilisateurs. Ces derniers peuvent y consulter entre autres des informations sur leur compte, leurs jobs ou leur stockage.
        Cette présentation a pour but de montrer comment nous avons réalisé ce service, conceptuellement et techniquement, et de recueillir des avis venant du personnel des laboratoires IN2P3. Nous tenterons également de présenter rapidement quelques fonctionnalités en cours de développement.

        Orateur: Renaud Vernet (CCIN2P3)
    • 10:00 10:10
      Piscines: Présentations des piscines
    • 10:10 10:45
      Pause Matin 35m
    • 10:45 12:30
      Présentations plénières: Gestion de projets et développement
      Président de session: Andrea Sartirana (CNRS)
      • 10:45
        Gestion de données au CC-IN2P3 15m

        Le CC-IN2P3 stocke actuellement 80 Po de données sur plus d'une dizaine de technologies de stockage, pour une centaine de projets scientifiques. Partant du constat qu'il existait des améliorations à apporter dans la gestion des données, nous avons initié depuis plus de deux ans un travail autour du cycle de vie de celles-ci au CC-IN2P3.
        Dans cette présentation, une vue globale de cette activité sera présentée. Elle s'articule autour de différents projets connectés les uns aux autres, sur lesquels travaille le CC-IN2P3:
        - les plans de gestion de données et leur automatisation.
        - l'audit des systèmes de stockage et leur utilisation.
        - la problématique de l'archivage des données et de l'Open Data.
        Les deux derniers points seront abordés de façon plus détaillée dans d'autres présentations.

        Orateur: Jean-Yves Nief (CC-IN2P3)
      • 11:00
        Open Data et Préservation des Données à long terme à l'IN2P3 15m

        L'utilisation massive d'outils informatiques de collecte, de mesure et
        de traitement a changé le rôle des données dans la production du travail
        scientifique. Le mouvement de partage et ouverture des données scientifiques
        (open data) est une réponse au besoin d'échanger le plus rapidement
        possible les résultats obtenus et de surmonter les obstacles juridiques
        et techniques à la circulation de ces données.

        Les politiques gouvernementales et européennes d'ouverture des données
        visent depuis quelques années à diffuser et conserver les données
        acquises grâce à des fonds publics. La production du travail scientifique
        a fait de la préservation à long terme des données un enjeu crucial pour
        les institutions de recherche.

        Lorsque la question de l'archivage électronique est abordé nous sommes
        régulièrement confrontés à la méconnaissance de ce qu'implique un
        véritable archivage électronique. Beaucoup utilisent le terme d’archivage
        pour désigner en fait une sauvegarde sécurisée; or les moyens à mettre en
        œuvre ne sont pas les mêmes dans les deux cas.

        Un organisme souhaitant faire de l'open data et préserver ces informations
        doit recourir à diverses stratégies conceptuelles et techniques,
        appliquées de manière continue. Étant donné qu’il n’existe aucune solution
        globale et unique, nous insistons sur l’importance de combiner ces stratégies.

        Orateur: Yonny CARDENAS (CC-IN2P3)
      • 11:15
        Mise en place d'un plan de gestion des données (DMP) au GANIL 15m

        Présentation de la mise en place concrète d’une politique de gestion des données expérimentales au GANIL :
        Rôle et responsabilité en matière de gestion des données
        Gestion de l'Open Access (Utilisation d’iRODS et d’un Cloud temporaire)
        Utilisation d’identifiants pérennes pour les jeux de données (DOI)
        Catégorisation des données (Création de métadonnées)
        Gestion du stockage et de l’archivage (localement et au CC-IN2P3)
        Création de DMP à l’échelle d’un jeu de données (Si possible machine actionnable: utilisation de RDMO? (logiciel adapté par une équipe du CC-IN2P3))
        Utilisation de licence pour les données (et logiciels)
        Présentation des intervenants qui nous ont accompagnés dans cette démarche et les collaborations mises en place

        Orateur: Benjamin FUSBERTI ({CNRS}UPR3266)
      • 11:30
        HL LHC: Datalake, un service de stockage des données 15m

        La problématique de la donnée et plus généralement de son management est au centre de beaucoup des préoccupations de nombreuses expériences scientifiques à venir et cela quel que soit la thématique. L’évolution du LHC vers le HL LHC autour 2024 mets en exergue cette problématique. Je me propose de faire un état des lieux des réflexions qui sont en cours autour ce sujet et notamment des pistes de réflexions qui sont abordées dans le projet DOMA (Data Management and Provisioning Systems ). Ce projet regroupant les différences activités de réflexions et de tests qui sont en cours pour mener à la définition de ce que devrait être le futur service de stockage de données scientifiques, datalake ou autres.

        Orateur: Eric Fede (CC-IN2P3/CNRS)
      • 11:45
        TAPE $AVES ! Oui, mais ce n’est pas gratuit pour autant. 15m

        La communauté de la Physique des Hautes Énergies en général et le CC IN2P3 en particulier sont des utilisateurs de longue date de technologies de bandes magnétique. Ce média d’un faible cout unitaire est la solution privilégiée pour le stockage de masse de très grandes quantités de données. Lors des JI 2014 [1], j’avais retracé dans une rétrospective l’historique et les utilisations de telles solutions de stockage au CC-IN2P3.

        Il est d’ores et déjà acté au sein des grandes expériences de physique et en particulier pour le LHC que la bande magnétique sera LE support de stockage principal des données scientifiques. A l’orée 2023, la production de données du « High Luminosity LHC » sera telle que la seule solution de stockage économiquement viable sera la bande magnétique.

        A cette date, les futurs modèles de cartouches commercialisés « devraient » permette de stocker au de 40 à 60 To par cartouche à des prix très compétitifs.

        Fantastique ! On pourra absorber cet accroissement de données à cout constant !

        Oui, mais ce n’est pas si simple que ça :

        • Le marché des bandes magnétiques s’est beaucoup resserré. Il n’y a plus qu’un seul fabricant de lecteurs et 2 fournisseurs de médias. Le CC-IN2P3 est directement impacté par le retrait de notre fournisseur historique.
        • La bande n’est pas du disque ! Physiquement il s’agit d’un média linéaire pour lequel le temps d’accès à la donnée est très important comparativement au taux de transferts. Les grandes expériences de physique sont en train de repenser leurs modèles de stockage pour exploiter au mieux le média en tenant compte de ses contraintes intrinsèques.
        • Même si le média reste et restera bien moins cher que du disque à capacité égale, il nécessite une infrastructure complexe et onéreuse pour être exploité au mieux de ses capacités.

        Les choix technologiques qui devront être fait au CC ne se résument pas à choisir le prix du Téraoctets le moins cher possible. Il faudra que cette infrastructure soit à même de supporter une charge importante, d’absorber et de délivrer les données en continue afin que les expériences et les utilisateurs puissent mener à bien leurs recherches.

        Ma présentation portera sur tous ces aspects. Je vous présenterai les choix technologiques qui s’offrent à l’IN2P3 et les orientations à suivre pour répondre à ces futurs besoins.

        [1] https://indico.in2p3.fr/event/9954/contributions/51377/

        Orateur: Pierre-Emmanuel Brinette (CC IN2P3)
      • 12:00
        Migration de Windows 10 1607 en Windows 10 1803 15m

        La première version de Windows 10 (1607) déployée sur de nombreux postes de l'IRFU est maintenue par Microsoft uniquement jusqu'en octobre 2018.
        L'IRFU a donc prévu une migration de ces postes au printemps/été 2018 vers Windows 10 1803.
        Nous décririons les différentes procédures et tests que nous avons mis en place, sachant que ce type de mise à jour devra avoir lieu au minimum une fois par an.

        Orateurs: joel surget (CEA/Saclay IRFU), François DUMOULIN (CEA/DSM/IRFU)
      • 12:15
        « Modern Driver Management » sous Windows 10 15m

        L’IRFU a changé totalement sa méthode de gérer et d’installer les pilotes de machines Windows 10 ainsi que la mise à jour des bios en utilisant une nouvelle méthode appelée « Modern Drivers Management ». Cette méthode est basée sur un principe très simple de copie des pilotes dans un répertoire / package au nom très explicite de telle manière que le pc puisse facilement trouver et utiliser les bons pilotes.
        Un produit gratuit permet en plus d’automatiser de manière transparente et simple les téléchargements, créations de packages des modèles de Dell, HP, le Novo et Microsoft et fournit les scripts utilisés par une machine en cas d’installation ou de mise à jour. La gestion et mise à jour des bios est intégrée à ce système.
        Nous décrirons les raisons de ce changement de méthode, le principe et les interfaces du produits.

        Orateur: joel surget (CEA/Saclay IRFU)
    • 12:30 14:00
      Pause Déjeuner 1h 30m
    • 14:00 15:30
      Présentations plénières: ASR/Développement
      Président de session: anthony gautier (CEA/irfu)
      • 14:00
        Enregistrement des données accélérateur Spiral2 (Archivage fil de l'eau) 15m

        Les grandeurs physiques des équipements de l’accélérateur Spiral2 doivent être enregistrées (archivées) à des fins de visualisation, d’extraction et d’analyse par les utilisateurs. L’enregistrement des grandeurs se fait dans un entrepôt de données. La visualisation et l’extraction sont faites grâce à un client en interface avec l’entrepôt de données.

        L’objet de la soumission est de présenter le contexte, les besoins et la solution informatique mise en œuvre (principe, architecture). Enfin, la raison des choix effectués et les problèmes rencontrés.

        Orateur: Charles-Henry PATARD
      • 14:15
        Lavoisier : un framework d'agrégation de données 15m

        Les services informatiques de nos laboratoires et centre de calcul ont besoin de superviser leurs ressources et leurs données. Cela nécessite parfois le développement d'applications sur mesure, adaptées à nos spécificités, et capables d’agréger, traiter et formater des données provenant de sources hétérogènes.

        Lavoisier (http://software.in2p3.fr/lavoisier) est un framework qui permet de construire de telles applications en assemblant des composants réutilisables (plugins et templates). Les applications ainsi construites sont alors utilisables via l'API RESTful de Lavoisier, son interface web ou une ligne de commande.

        Le framework Lavoisier est développé au centre de calcul de l'IN2P3, et il est utilisé dans nombreux projets du centre de calcul et des projets européens.

        Cette présentation donnera une vue d'ensemble de Lavoisier et expliquera de quelle façon ce framework peut nous aider à construire des applications maintenables/extensibles, performantes, robustes et sécurisées tout en se concentrant sur les spécificités métier.

        Orateur: Cyril L'Orphelin (CC-IN2P3)
      • 14:30
        Déploiement et gestion du parc serveurs du CC-IN2P3 15m

        Pour la gestion d'un parc important de serveurs, nous avons besoin d'un outil de déploiement efficace et qui s'adapte à tous nos besoins.
        - Doit être fonctionnel sans modification majeure.
        - Doit s'intégrer dans le système d'information du CC.
        - Doit prendre en charge les systèmes déjà déployés.
        - Actif et largement utilisé dans des environnements équivalents à celui du CC
        Je présente l'outil opensource Foreman, son utilisation au CC et les différentes étapes du projet avec les derniers changements avec l'intégration dans Puppet.

        Orateur: Ahmed KHOUDER ({CNRS}USR6402)
      • 14:45
        Optimisation du code de simulation des gerbes atmosphériques 15m

        Le projet CTA (Cherenkov Telescope Array) [1] a pour objectif la construction et l'exploitation d'un réseau d’une centaine de télescopes Cherenkov situés sur les sites de La Palma (Canaries, Espagne) et Paranal (ESO, Chili). CTA ouvre une nouvelle ère dans l'astronomie gamma de très haute énergie. Un premier grand télescope est en cours d'installation à La Palma et l'acquisition des premières données est prévue pour fin 2018. Le consortium de CTA regroupe environ 1200 membres, une centaine d’instituts de recherche de 25 pays.
        Des simulations Monte Carlo détaillées des gerbes induites par les rayons cosmiques et la réponse des télescopes à la lumière Cherenkov, sont nécessaires tout au long du projet afin de calculer les fonctions de réponse des télescopes. Pour la simulation des gerbes atmosphériques CTA utilise le logiciel corsika [2], un logiciel de référence dans la communauté étudiant les rayons cosmiques. Le temps de calcul associé aux simulations est et restera très important, i.e. environ 200 millions d’heures CPU normalisées par an. La réduction du temps de calcul nécessaire aux simulations est donc un enjeu majeur pour le projet.
        Dans cette contribution, nous allons présenter les pistes d’optimisation de corsika que nous avons identifiées par le profilage du code, ainsi que les premiers résultats obtenus à l’aide des techniques de vectorisation (instructions SIMD). Nous montrerons une comparaison des performances obtenues par des transformations manuelles du code et par le compilateur. Enfin, nous présenterons nos perspectives d’optimisation consistant à exploiter la réduction du format de données.

        [1] The CTA Consortium 2017, Science with the Cherenkov Telescope Array, ArXiv 1709.07997
        [2] https://www.ikp.kit.edu/corsika/

        Orateur: Luisa Arrabito (LUPM)
      • 15:00
        Gestion du réseau dans le Cloud OpenStack au CC-IN2P3 15m

        Nous allons voir à travers cette présentation :
        - La gestion du réseau virtuel OpenStack depuis sa mise en place avec nova-network.
        - Le développement du Cloud au CC et la nécessité d'une migration vers neutron.
        - Les différentes fonctionnalités qu'offre neutron et leurs usages au CC.
        - Les perspectives avec le développement du SDN/NFV.

        Orateur: Ahmed KHOUDER ({CNRS}USR6402)
      • 15:15
        Contribuer à un projet logiciel libre. Retour d'expérience avec Hadoop 15m

        Logiciel libre et open source est devenu incontournable dans la vie quotidienne. Il est même indispensable en informatique pour la physique. L’une des raison du succès est que les utilisateurs peuvent librement utiliser, étudier et modifier, redistribuer sans ou avec modifications le logiciel ainsi que contribuer au projet logiciel. Je présenterai un exemple d’une telle utilisation et contribution en cas du projet Hadoop bien connu dans le domaine de traitement de gros volumes des données.
        Je décrirai très brièvement le projet Hadoop, expliquerai pourquoi en travaillant pour un projet de l’ATLAS j’ai décidé de soumettre un patch au projet Hadoop, décrirai la procédure pour contribuer à Hadoop, en particulier, comment accéder à l’environnement de production et de test, contribuer une correction de bogue, et comment fonctionne le système de test de contributions automatisé. Je démontrerai les résultats de test des patchs (de code Java et de script shell) et présenterai les outils impliqués. Ensuite, je parlerai de la licence du projet comme une licence de logiciel libre et pourquoi ce fait est important pour notre usage du projet.
        Cet exemple permet d’apprendre et d’adopter (certaines des) pratiques et outils du projet Hadoop ainsi que de savoir un peu plus sur le fonctionnement des projets logiciel libre et open source à tout informaticien ou utilisateur avancé de logiciels.

        Orateur: Grigory RYBKIN (LAL)
    • 15:30 16:00
      Pause AM 30m
    • 16:00 17:00
      Présentations plénières: RGDP - Émilie Masson (CIL / CNRS)
      Présidents de session: Guillaume PHILIPPON (LAL - CNRS), Sébastien Gadrat (CC-IN2P3)
    • 17:00 18:00
      Piscines: plusieurs thématiques
      • 17:00
        Intégration Networking Dell dans un écosystème Cisco 1h

        Lors de cette discussion ouverte, nous évoquerons les solutions Dell-EMC Networking orientées Datacenter et Campus, et leur intégration dans des environnements réseaux existants, en particulier ceux s’appuyant sur des solutions d’autres constructeurs, tel que Cisco. Si le respect des standards protocolaires est un élément fondamental de cette intégration, nous aborderons également par l’exemple quelques cas d’usage de fonctionnalités ou d’architectures propriétaires et les approches permettant une intégration efficace dans ces environnements.

        Orateur: Nicolas ROUGHOL (DELL EMC)
      • 17:00
        Mise en pratique du framework Lavoisier 1h
        Orateurs: Cyril L'Orphelin (CC-IN2P3), Sylvain Reynaud (CNRS)
    • 19:00 20:00
      Dîner 1h
    • 20:00 21:20
      Utilisation des rayonnements ionisants pour l’imagerie et la thérapie : principe et évolution - Laurent Ménard 1h 20m
    • 07:00 08:30
      Petit déjeuner 1h 30m
    • 08:30 10:00
      Présentations plénières: Calcul haute-performances
      Président de session: Maude LE JEUNE (APC)
      • 08:30
        Panorama du calcul avancé à l'IN2P3 30m

        A la suite d'un sondage adressé aux chefs de service informatique courant septembre, je dresserai un panorama des évolutions des infrastructures et des technologies de calcul utilisées à l'institut.

        Orateur: David Chamont (LAL - IN2P3 - CNRS)
      • 09:00
        GPUification avec OpenAcc 15m

        Je présenterai un programme de calcul section efficace de capture d'électrons dans les supernovæ.
        — sa genèse
        — son optimisation séquentielle
        — ses tentatives de parallélisation avec OpenMP
        — sa réécriture capitalisant sur une expression plus vectorielle
        — l'utilisation des directives OpenACC
        — les aspects de performance, de précision… et de lisibilité du code
        — les aspect de formation des utilisateurs à ce type de codage

        Orateur: Vincent LAFAGE (CNRS)
      • 09:15
        Go-HEP: acquisition de donnés et analyses reproductibles 15m

        Go-HEP est un ensemble de bibliotheques et applications permettant d'écrire des codes d'analyse efficaces, concurrents et facilement déployables, en Go.

        Dans une première partie, j'introduirai très rapidement les forces et faiblesses de Go, et donc les motivations pour l'écriture de Go-HEP et sa mise à disposition de la physique des particules.

        Je présenterai ensuite quelques uns des paquets qui constituent Go-HEP:

        • rootio: un paquet pour la lecture/écriture de fichiers ROOT
        • xrootd: un paquet implémentant le protocole XRootD

        et quelques paquets pour les analyses de physique ("plotting", "minimization").

        Enfin, j'aborderai l'épineux problème de la reproductibilité des résultats scientifiques.
        La chaîne de compilation de Go possède de nombreux atouts pour pallier ce problème:

        • compilation statique,
        • déploiement aisé,
        • compilation reproductible.

        De plus, avec les nouveaux développements issus de vgo ("versioned Go"), un binaire est maintenant complètement reproductible, dans le temps et l'espace (machine de developpement, production, grille, ...)
        vgo est la dernière brique fondamentale permettant de relever de front la problèmatique de l'ingénierie logicielle:

        Software engineering is what happens to programming
        when you add time and other programmers.
        (Russ Cox)

        Orateur: Sebastien Binet (LPC/IN2P3)
      • 09:30
        fer: toolkit pour le calcul distribué et concurrent 15m

        L'expérience ALICE au LHC est met à jour son control framework pour faire face aux conditions de prise de données prevues pour le Run-3, tant dans le domaine du volume que de la frèquence d'acquisition des données: ALICE-O2.
        Ce nouveau framework regroupe les communautés "online" et "offline" (O2) autour d'une architecture distribuée basée sur l'échange de messages et la bibliothèque FairMQ.

        FairMQ devrait permettre un passage à l'échelle horizontal plus aisé si les conditions d'acquisition et de traitement de données requierent temporairement plus de puissance de calcul.

        FairMQ s'appuie sur ZeroMQ et nanomsg pour l'échange de messages.
        Ainsi, chaque module d'analyse ou de traitement de données peut être écrit dans le langage adéquat pour la tâche en question.

        Je présenterai fer, une bibliothèque compatible avec FairMQ et le framework AliceO2, permettant d'écrire des modules en Go.

        J'introduirai les composants de base de fer permettant l'interoperabilité avec FairMQ, tant dans le mode nanomsg que 0MQ, et les différentes topologies supportées par fer (router/dealer, request/reply, publish/subscribe, ...)

        Je présenterai ensuite un petit exemple de topologie de processus fer et comment implanter un tel programme en Go.

        Enfin, j'aborderai les performances de fer (CPU, VMem) et ses atouts (compilation, déploiement, performances, "monitoring").
        En conclusion, je présenterai les cas concrets d'utilisation de fer dans la collaboration ALICE, notamment dans le cadre de son Control System.

        Orateur: Sebastien Binet (LPC/IN2P3)
      • 09:45
        Abstraction logicielle sur la ferme GPU du CC-IN2P3 15m

        Dans le cadre du projet européen PRACE, présentation de la mise en place d'un workflow "agile" sur la ferme GPU du CC-IN2P3, grâce à la conteneurisation, afin d'évaluer un framework de Deep Learning.

        Orateur: Bertrand Rigaud (USR6402)
    • 10:00 10:30
      Pause Matin 30m
    • 10:30 11:30
      Présentations plénières: ASR/Développement
      Président de session: Emmanuel Medernach (CNRS IN2P3 IPHC)
      • 10:30
        A la découverte de SPARK 15m

        Dans un contexte technologique ou les données sont très faciles à produire, l’analyse quant à elle devient de plus en plus complexe. Les plateformes de calcul telles que MapReduce (HADOOP) ont été largement adoptées pour les traitements analytiques. Bien que ces plateformes offrent un modèle de calcul hautement parallélisable et tolérant aux pannes matérielles, elles demeurent néanmoins pour certains traitements inefficaces notamment lorsque les données ont besoin d’être réutilisées. C’est à partir de ces constats que SPARK est née.

        SPARK se veut être une plateforme généraliste robuste aux pannes et hautement parallélisable, ou le traitement des données exploite au maximum la mémoire pour améliorer les performances.

        Spark propose des approches tout à fait complémentaires aux outils de calcul intensif et haut-débit (HPC, HTC) déjà implantés dans nos environnements. L’objectif de cette présentation sera de présenter SPARK aussi bien au niveau architecturel que conceptuel et l’interêt que peut représenter une telle technologie.

        Orateur: Osman AIDEL (IN2P3-CC Grid service)
      • 10:45
        Développement MultiLangage C/C++/Java/Scala/Python/Spark 15m

        Nous avançons inéluctablement vers les environnements de la programmation fonctionnelle (par exemple Scala), et vers les architectures distribuées (par exemple Apache Spark).
        Il n'est pas question de perdre les acquis des développements accumulés avec les langages plus traditionnels (C/C++/Java/Python), qui ont produit très souvent nos solutions algorithmiques qui resteront précieuses.
        Comment assurer l'interpénétration des deux mondes ? Quelles sont les difficultés ?
        Cette présentation détaillera quelques technologies qui aident à mettre en œuvre de tels interfaces, les difficultés, les enjeux de performance, compte tenu du point majeur soulevé par le contact entre le monde de la JVM, le monde de Python, et le code natif de C/C++/Fortran.

        Orateur: Christian Arnault (CNRS)
      • 11:00
        AstroLab: naviguer au milieu de milliards d'astres 15m

        AstroLab est une organisation pour le développement d’outils logiciels de pointe pour aider à résoudre des problématiques big data dans la recherche.
        Partager les efforts de R&D entre groupes, améliorer l’inter-opérabilité entre le milieu industriel et celui de la recherche dans les projets open-sources, et développer de nouveaux outils collaboratifs permettra aux équipes de recherche d’exploiter au mieux les outils de l’écosystème du big data.
        Dans cette présentation, je me concentrerai sur Apache Spark, un ensemble d’outils pour le calcul distribué principalement utilisé dans le milieu industriel, pour analyser des données de futur telescopes tels que LSST qui enregistrera des téraoctets de données par nuits pendant plusieurs années.
        Plus en détails, je décrirai les mécanismes mis en place pour connecter le format de données scientifique FITS dans Spark, et j’étudierai les performances pour distribuer et manipuler des téraoctets de données distribuées sur un ensemble de machines. Pour finir, j’introduirai spark3D, une extension d’Apache Spark pour manipuler efficacement des jeux de données tri-dimmensionnels venant de l'astrophysique, de la physique des hautes énergies, ou encore de la météorologie.

        Orateur: Christian Arnault (CNRS)
      • 11:15
        Smilei: un code libre de simulation de plasma cinétique massivement parallèle 15m

        Smilei est un code de simulation de physique des plasmas de type Particle-In-Cell. Il est utilisé pour des simulations de jets relativistes astrophysiques aussi bien que pour la simulation d'accélérateur de particules par sillage laser.
        C'est un code libre développé en collaboration avec des partenaires extérieurs physiciens et experts en calcul scientifique. Smilei est massivement parallèle et fait l'objet de nombreuses optimisations afin de profiter au mieux des ressources de calcul des grands centre nationaux. Dans cet exposé, nous montreront quelques uns des challenges posés par les simulations massivement parallèles et les stratégies qui ont été retenues pour les affronter.

        Orateur: Arnaud Beck (Laboratoire Leprince-Ringuet)
    • 11:30 12:30
      Piscines: Piscines (plusieurs thématiques)
      • 11:30
        Ecrire le Plan de Gestion de son logiciel de recherche et participer à l'étude PRESOFT en donnant son avis 1h

        Le projet PRESOFT (http://www.france-grilles.fr/presoft/) et son modèle de plan de gestion de logiciel de la recherche (http://www.france-grilles.fr/presoft-modeles-de-plan-de-gestion-de-logiciel/) ont été présentés début mai lors d'un webinaire RI3 (https://indico.in2p3.fr/event/17335/).

        La proposition pour ces journées a deux objectifs :

        donner l'occasion aux personnes présentes aux JI2018 de démarrer la rédaction du plan de gestion de leurs logiciels de la recherche.

        recueillir les retours des utilisateurs du modèle. Ces retours viendront alimenter l'étude PRESOFT : étudier la faisabilité, les bénéfices par rapport aux contraintes, l’acceptabilité et les conditions pour une
        réelle adoption par les chercheurs, les thésards ou les responsables des projets de développement logiciel
        pour leur propre production de logiciels de recherche de plans de gestion du logiciel et évaluer l’impact pour une unité de l’implémentation de plans de gestion du logiciel sur sa connaissance
        du logiciel de recherche développé en son sein et sa gestion.

        Dans l'idéal nous souhaitons commencer par une courte présentation des objectifs du "plongeon" PRESOFT.
        Ensuite, les "nageurs" pourront renseigner leur plan avec l'aide des "maitres-nageurs" PRESOFT. Nous aimerions proposer le choix du support aux "nageurs" : la plate-forme DMP OPIDoR (https://dmp.opidor.fr/) ou le modèle .odt. Nous pensons que la plate-forme DMP OPIDoR est un meilleur outil mais si le réseau ne permet pas son utilisation, nous utiliserons le modèle .odt.

        Les "nageurs" seront invités à faire part au fil de l'eau de leurs commentaires et à renseigner un questionnaire pour une évaluation plus structurée de la faisabilité de plans de gestions de logiciels dans leur contexte de travail.

        Nous aimerions proposer vers la fin des journées un échange entre les "nageurs" et les "maitres-nageurs" pour compléter le recueil de leurs retours.

        Cette proposition fait partie d’un ensemble concerté de propositions du CC-IN2P3 sur la gestion des données (DMP et SMP).

        Orateur: Geneviève Romier (CNRS-IN2P3 CC-IN2P3)
      • 11:30
        Piscine : "Développement MultiLangage C/C++/Java/Scala/Python/Spark" 1h

        Nous avançons inéluctablement vers les environnements de la programmation fonctionnelle (par exemple Scala), et vers les architectures distribuées (par exemple Apache Spark).
        Il n'est pas question de perdre les acquis des développements accumulés avec les langages plus traditionnels (C/C++/Java/Python), qui ont produit très souvent nos solutions algorithmiques qui resteront précieuses.
        Comment assurer l'interpénétration des deux mondes ? Quelles sont les difficultés ?
        Ce plongeon va nous introduire des exemples de technologie (autour de l'outil JNA: une version moderne du célèbre JNI ou de l'outil JEP) qui rendent cette connexion applicable sinon simple, pour construire le trait d'union opérationnel depuis C jusqu'à Apache Spark.

        Orateur: Christian Arnault (CNRS)
    • 11:30 12:30
      Présentations plénières: Discussion RGPD (Émilie Masson)
    • 12:30 13:45
      Pause Déjeuner 1h 15m
    • 13:45 14:00
      Photo de groupe 15m
    • 14:00 15:00
      Eclair: Présentations éclair
      Président de session: Jean-Michel Barbet (Subatech)
      • 14:00
        ComputeOps : conteneurs pour le HPC 5m

        Le projet ComputeOps vise à étudier les technologies de conteneur pour le calcul haute performance HPC (High Performance Computing). Ce projet fait partie du Master Project IN2P3 DecaLog.

        Le mouvement "DevOps" amène de plus en plus les développeurs à livrer leurs codes accompagnés d’une image de conteneur (machines virtuelles légères). Ainsi, l'application peut être déployée beaucoup plus facilement, et dans un contexte d'exécution similaire à celui du développeur, sans nécessiter l'intervention d'un administrateur pour installer des bibliothèques applicatives spécifiques. Docker est l'outil emblématique de ce mouvement.

        Ce concept se diffuse maintenant à grande vitesse dans le monde du cloud et des supercalculateurs ; dans ce dernier cas, plutôt autour de l'outil Singularity. Pour se garder la possibilité d'utiliser ces ressources de calcul, et bénéficier de la souplesse apportée par les conteneurs, il devient vital de préparer l'usage de ces conteneurs dans les disciplines protées par l’IN2P3 et dans nos grilles de calcul.

        Voir aussi :
        https://gitlab.in2p3.fr/CodeursIntensifs/DecaLog/wikis/ComputeOps

        Orateur: Dr Cécile Cavet (APC)
      • 14:05
        Nouveau & Renouveau cluster HPC 5m

        Après 6 mois de négociation avec Dell, l’IRFU a fait l’acquisition d’un nouveau cluster HPC « gonflé » à bloc (tout Intel CPU Gold 20 cœurs et réseau OmniPath 100Gb/s) pour le Département Astrophysique :
        cosmologie et planétologie
        La découverte de l’environnement de déploiement TrinityX développé par ClusterVision nous a incités à mettre en œuvre pour le recyclage d’un ancien cluster : ansible + sssd + SLURM + beegfs + luna …

        Orateur: Anthony Gautier De Lahaut (CEA/DRF/Irfu - Université Paris Saclay)
      • 14:15
        GPU au CC-IN2P3 : mise à jour 5m

        Rapide mise à jour sur la ferme GPU au CC-IN2P3 et ses évolutions depuis son lancement, il y a 2 ans, au moment des JI 2016.

        Orateur: Nicolas Fournials (CC-IN2P3)
      • 14:20
        solid-mon-rpi: monitoring de constantes environnementales embarqué sur RaspberryPi 5m

        L'expérience SoLid installée auprès du réacteur nucléaire de recherche BR2 à SCK-CEN (Mol, Belgique), se propose d'étudier un des secteurs les plus prometteurs en terme de nouvelle physique: la physique des neutrinos.

        Le dispositif expérimental est constitué de plusieurs cubes en PVT de 5x5x5 cm^3, placés dans un conteneur, à 5,5m du cœur.
        La température de ce conteneur est contrôlée.
        La température de fonctionnement, 5°C, permet une acquisition de meilleure qualité et un bruit de fond réduit.

        L'expérience SoLid a donc disséminé des Raspberry Pi-3 à des endroits stratégiques.
        Ces RPis sont flanqués de divers instruments pour mesurer:

        • température,
        • pression,
        • hygrométrie,
        • voltage (relié aux coups d'ADC.)

        solid-mon-rpi est le programme servant ces données environnementales.
        solid-mon-rpi est un serveur web écrit en Go.
        Il présente une interface REST consultable via curl, servant les données via JSON.
        Il présente également ces données sous forme graphique et en temps réel (via WebSockets).

        solid-mon-rpi récupère les données environnementales via le bus I2C.
        Tous les drivers permettant la lecture des données étant en Go, la compilation croisée depuis une machine plus puissante qu'un RPi-3 est non seulement possible mais également aisée.

        De plus, le déploiement de ce binaire, embarquant code pour l'acquisition et un serveur web pour la présentation, se réduit à un simple scp, grâce au modèle de compilation de Go.

        Je présenterai rapidement l'architecture de solid-mon-rpi, son interface graphique et son interface en ligne de commande.

        Orateur: Sebastien Binet (LPC/IN2P3)
      • 14:30
        GSoC@HSF: RX 5m

        Dans cette brève présentation, je ferai part de mon expérience avec "Google Summer of Code" (GSoC).
        Au cours de ces deux dernières années, j'ai encadré plusieurs étudiants lors de ce programme financé par Google.

        Le CERN et la "HEP software foundation" (HSF) sont des organisations retenues par Google pour participer au GSoC: ici.

        J'ai pu par ce biais-là proposer des sujets de stage et encadrer les étudiants retenus:

        • en 2017:
        • Jet clustering optimizations in fads (proposal)
          • Launching Wagon, a WebAssembly interpreter in Go (proposal)
          • Updating gopy to support Python3 and PyPy (proposal)
        • en 2018:
        • Go-HEP/xrootd - Create a pure-Go client for XRootD (proposal)

        Je reviendrai sur les différents aspects de ce travail d'encadrement:

        • le protocole pour proposer un stage
        • les intéractions avec l'étudiant
        • les erreurs à ne pas commettre
        • la charge de travail pour l'encadrant
        • les méthodes de travail
        • la pérennité du code résultant.

        Puis je finirai par un bilan global et des idées pour un "Summer of Code @IN2P3".

        Orateurs: Sebastien Binet (LPC/IN2P3), Antoine Pérus (Cnrs/In2p3/Lal)
      • 14:35
        Coding Pool : un catalogue de tutoriels en-ligne 5m

        Je présenterai un prototype de site web cataloguant les piscines et tutoriels en-ligne de l'IN2P3, ainsi que les tutoriels externes recommandés par les collègues. Je compte intégrer au site tous les tutoriels et piscines prévus pources JI, donc c'est mieux si je suis plutôt en début de programme, pour que les participants puissent utiliser le site pour choisir leurs tutos (dans les limites de l'accès à internet...).

        Orateur: David Chamont (LAL - IN2P3 - CNRS)
      • 14:45
        Intégration logiciel avec CVMFS 5m

        Au fil des ans s’accumulent de nombreux logiciels et leurs différentes versions déployés sur un nombre grandissant de versions de distribution, la mise en oeuvre de CVMFS est l’occasion d’élaguer et de rationaliser là l’intégration et le dépliement des binaires et librairies utilisés par les physiciens.

        Orateur: Pierre-François Honoré (CEA/DRF/Irfu - Université Paris Saclay)
      • 14:50
        Ansible Host Manager 5m
        Orateur: francois legrand (CEA)
    • 15:00 16:00
      Piscines
      • 15:00
        Conteneurs orientés HPC avec Singularity 1h

        Singularity est un conteneur orienté HPC facile à utiliser et à déployer. Disponible au centre de calcul, il permet très simplement de transformer un logiciel ou une pile de logiciel en un fichier executable n'importe ou et compatible OpenMPI. Singularity permet de s'abstraire de l'environnement système pour se focaliser sur le code, du poste de travail jusqu'au centre de calcul et ainsi garantir la répétabilité de votre code.

        Orateurs: Martin Souchal (APC), Alexandre Dehne Garcia (INRA / CBGP)
      • 15:00
        DataScience et Machine Learning avec Go 1h

        Cet atelier piscine présentera les différentes bibliothèques à disposition des scientifiques en Data Science et Machine Learning.

        Au programme:

        • gonum/stat: outils pour les statistiques (variées et multi-variées)
        • gonum/mat: bibliothèque de manipulation de matrices, avec un "backend" LAPACK + BLAS
        • gonum/optimize: outils concurrents pour la recherche d'extrema
        • gonum/diff/fd: outils pour le calcul de dérivées
        • gonum/fourier: outils pour le calcul de transformées de Fourier
        • gonum/plot: outils pour la création de plots (histogrammes, scatter plots, ...)
        • go-hep/csv: outils pour l'ingestion et le traitement de fichiers CSV (CSV-as-SQL)
        • go-hep/rootio: outils pour l'ingestion et le traitement de fichiers ROOT
        • go-hep/fit: outils pour l'ajustement de données
        • gopherdata/gophernotes: un kernel Go pour Jupyter
        • gorgonia: un tensorflow-like en Go
        • go-sklearn: outils pour le machine learning en Go, inspirés de scikit-learn (python.)
        Orateur: Sebastien Binet (LPC/IN2P3)
      • 15:00
        Scala: la programmation fonctionnelle par l'exemple 1h

        Vous vous sentez à l'étroit avec la programmation impérative et son dictat de la suite d'instructions à exécuter? Vous avez un désir de transparence référentielle qui sommeille en vous depuis toujours? La programmation fonctionnelle est en haut de votre TODO list depuis quelques années? Un langage qui implémente l'idée d'action paresseuse vous séduit?
        Alors n'attendez plus, ce plongeon est fait pour vous! Je propose de découvrir quelques concepts de la programmation fonctionnelle à travers l'apprentissage de Scala, un langage relativement jeune (2004) basé sur la Java Virtual Machine, qui connait ses heures de gloires grâce notamment à l'explosion du big data.

        Orateur: Julien Peloton (CNRS)
    • 16:00 18:00
      Balade 2h
    • 18:00 19:00
      "Douceurs" régionales
    • 20:00 21:30
      Dîner de conférence 1h 30m
    • 07:00 08:30
      Petit déjeuner 1h 30m
    • 08:30 10:00
      Présentations plénières: Acquisition haut-débit
      Président de session: Francoise Bouvet-Lefebvre (IMNC)
      • 08:30
        Panorama du Machine Learning 30m

        Panorama du ML et utilisation dans la communauté Irfu / IN2P3

        Orateurs: David Rousseau (LAL-Orsay), Francoise Bouvet-Lefebvre (IMNC)
      • 09:00
        InTheArt 15m

        Le machine learning est un domaine en pleine expansion. Au sein de la DRF (direction de la recherche fondamentale), un groupe transverse qui regroupe des domaines aussi différents que l'étude du génome ou la physique des particules s'est constitué autour des méthodes d’apprentissage automatique. C'est de ce groupe, nommé InTheArt dont je vous parlerez.

        Orateur: Valérie Gautard (CEA-Irfu)
      • 09:15
        Acquisition de données à haut débit, défis sur le stockage online des données : Exemple pour ProtoDUNE Dual Phase 15m

        L’expérience ProtoDUNE-DP (où "DP" signifie "Double Phase") est basée au CERN, elle est réalisée avec le support de la Neutrino Platform. Il s'agit de prototypes du détecteur de l'expérience DUNE (Deep Underground Neutrino Experiment), dont la construction vient de commencer aux États-Unis.
        Le détecteur ProtoDUNE-DP va générer un flux de données jusqu’à 130Gb/s, non comprimé, auquel un facteur de compression de 10 est appliqué. Les défis à relever concernent à la fois le stockage et le traitement online de ces données dans un buffer local à l’expérience avant que les données soient exportées sur des systèmes de stockage distants.

        Dans cet exposé je présenterai les tests réalisés, les choix et l’infrastructure mise en place dans le cadre de cette expérience.

        Orateur: Denis PUGNERE (IPNL)
      • 09:30
        Flux en acquisition de données au Ganil 15m

        Au Grand Accélérateur National d'Ions Lourds (Ganil), le résultat d'une expérience est le plus souvent sous forme de "runs" fichiers contenant les données brutes. Avant d''arriver formatées sur les disques durs, ces données ont étés transportées, travaillées, recalculées suivant un flux largement porté par Narval ou DCOD. Dans notre exposé, nous vous proposons de suivre ce flux de la production au stockage et voir l'impact sur les processus de traitement et le débit sur le réseau .

        Orateur: Luc Legeard (Ganil)
      • 09:45
        chaine d'acquisition pour la caractérisation des capteurs IR du projet Euclid 15m

        bonjour
        je peux vous présenter la chaîne d'acquisition qui a été développée pour la caractérisation des capteurs d'images infrarouges (H2RG) qui sont dans l'instrument NISP du satellite Euclid.
        La campagne d'acquisition vient de se terminer et a durée environ 12 mois. Elle a générée environ 500To de données pour 20 capteurs. Son "efficacité" dépasse les 80% par rapport à une acquisition constante 24h/24h.
        Elle a été programmée essentiellement en Python, avec un peu de C pour l'interface avec le framegrabber pour l'acquisition bas niveau des images.
        Le système déroule des scénarios (ou scripts) définis par le responsable scientifique suivant l'analyse qui doit être faite.
        L'ensemble des frames d'un scénario et tout son contexte, SlowControl et metadatas sont sockées dans un fichier HDF5.
        A chaque fin de scénario, un Quality checking est exécuté pour avoir une pré-analyse sur la qualité des images qui ont été enregistrées.

        Orateur: Sylvain Ferriol (IPNL)
    • 10:00 10:30
      Pause Matin 30m
    • 10:30 11:35
      Présentations plénières: Talks éclair et discussions
      Président de session: Denis PUGNERE (IPNL)
      • 10:30
        HSF Community White Paper: R&D pour les années 2020 25m

        La HEP Software Foundation (HSF), créé en en 2015 pour organiser la collaboration autour du logiciel dans la communauté HEP et ses partenaires, a conduit un processus de prospective en 2017, appelé le Community White Paper. Cette présentation rappellera l'originalité du processus, les grandes lignes de la roadmap publiée fin 2017 et les actions de R&D en cours depuis.

        Orateur: Michel Jouvin (LAL / CNRS)
      • 10:55
        Retour sur les outils collaboratifs à l'IN2P3 15m
        Orateur: Jean-René Rouet (CC-IN2P3/CNRS)
      • 11:10
        Retour sur le GT Active Directory 10m
        Orateur: Fouad Yahia (I.P.N.Orsay)
      • 11:20
        Conclusion JI 2018 15m

        Conclusion des Journées Informatique

        Orateur: Guillaume PHILIPPON (LAL - CNRS)
    • 11:35 12:30
      Pause Déjeuner/Départ 55m