Journées Plateforme

Europe/Paris
INSA Amphithéâtre La Rotonde (Lyon)

INSA Amphithéâtre La Rotonde

Lyon

69622 Villeurbanne cedex France
Description

Les laboratoires LIMOS, LIRIS, le GdR MaDICS (Masses de Données, Informations et Connaissances en Science) et le CC-IN2P3 organisent les journées « plateformes »  à Lyon les 7 et 8 juin 2018.

Ces journées sont l’occasion de rencontres entre acteurs académiques et industriels, que nous avons le plaisir de réunir afin d'échanger sur les processus de traitement de masses de données scientifiques ainsi que les infrastructures de calcul et de stockage.


Des retours d'expériences dessineront le paysage actuel, mais l'objectif sera également de nourrir une réflexion sur les évolutions scientifiques, techniques et environnementales de ces plateformes face aux enjeux que représente l'augmentation massive des données collectées.

Inscriptions jusqu'au 30 mai 2018.

Partenaires

 

Logo CC

Contact : frederic.gaudet@isima.fr

Inscription
Inscriptions
49 / 150
Participants
  • Andre Schaaff
  • Axel BONNET
  • Benjamin ROZIERE
  • Benoit DELAUNAY
  • Bertrand Rigaud
  • Christophe BLANCHET
  • Claire Chupin
  • Dan-Gabriel CALUGARU
  • danis abrouk
  • Denis Jannot
  • Denis PUGNERE
  • Emmanuel Coquery
  • Fabio Hernandez
  • Fabrice GALLAY
  • Farouk Toumani
  • Francoise CONIL
  • Frédéric Gaudet
  • Geneviève Romier
  • Gilles Mathieu
  • Guillaume Joslin
  • gérard henry
  • Jacques THOMAZEAU
  • Jean-Claude Jouffre
  • Jean-Michel Dumont
  • Jean-Yves Nief
  • Jerome Pansanel
  • Jimmy LABEJOF
  • Laurent Yeh
  • Lucas Kaldstrom
  • Marie-Christine Rousset
  • Matthieu Perotin
  • Mattieu Puel
  • Maxime thomas
  • Michele Detournay
  • Mohand Boughanem
  • Nicolas PERNOUD
  • Osman AIDEL
  • Philippe Chassagny
  • Pierre Hebert
  • Quentin Adam
  • Roland Denis
  • Sorina POP
  • Sylvain Biscarlet
  • Sébastien Valat
  • Vanessa Hamar
  • Vincent Breton
  • Wissem Inoubli
  • yassine ramdane
  • Yehia TAHER
    • 13:00 15:00
      Session 1
      • 13:00
        Accueil 10m

        Discours d'accueil

      • 13:10
        Introduction 20m
        Orateur: Vincent Breton (CNRS-IN2P3)
      • 13:30
        Le stockage vu par Dell 30m
        Orateur: Sylvain Biscarlet
      • 14:00
        Mesosphere DC/OS 30m
        • Présentation de DC/OS et des principaux cas d'usage (containers, services de données, ...).
        • Demo d'une application utilisant plusieurs services de données
        Orateur: Denis Jannot (Mesosphere)
      • 14:30
        Traitements de données LSST à l'IN2P3 30m

        Le centre de calcul de l'IN2P3 / CNRS (CC-IN2P3) prépare son infrastructure informatique afin de contribuer significativement au traitement des données du Large Synoptic Survey Telescope (LSST). En phase finale de construction, ce grand instrument situé à 2600m au sommet d'une montagne des Andes chiliennes collectera, sur une période de 10 ans d’exploitation, des images du ciel en très haute résolution et produira le catalogue des objets célestes le plus complet jamais réalisé.

        Après la présentation de la vue d’ensemble et de l'état d'avancement du projet, nous nous focaliserons sur les travaux en cours au CC-IN2P3 visant à préparer la plate-forme de traitement de données pour les besoins spécifiques de ce projet.

        Orateur: Fabio Hernandez (CC-IN2P3)
    • 15:00 15:30
      Pause
    • 15:30 17:00
      Session 2
      • 15:30
        Singularity au CC-IN2P3 30m

        Singularity permets aux utilisateurs d’installer et de déployer des applications en ayant le contrôle sur leur environnement.
        Singularity est un type de containers dont l’un des principaux intérêts est d’exécuter des "workflows » d'applications scientifiques en HTC et/ou HPC.
        Après avoir donné une vue générale de Singularity, nous aborderons par la suite des cas d'utilisation mis en place au CC-IN2P3.

        Orateur: Vanessa Hamar (CC - IN2P3)
      • 16:00
        Infrastructure Immutable 30m

        Pourquoi est ce que tout le monde parle d’infrastructure immuable ? (immutable infrastructure) Le point global de toute automatisation de l’infrastructure est clairement de simplifier la gestion de l’historisation de la gestion d’un serveur. Ce talk permet de comprendre CE qu’est la logique d’immutable infrastructure, comment en concevoir une, et comment gérer de la données dans ce type d’architecture. Ce talk parlera de pattern que l’on peut appliquer sur plusieurs type de technologies, virtual machine ou container.

        Orateur: Quentin Adam
      • 16:30
        Le cloud du CC-IN2P3 30m

        Déployé depuis 2011, le cloud du CC-IN2P3 fournit de nombreux services
        informatiques aux expériences et laboratoires utilisateurs du Centre. La
        présentation abordera notamment : les concepts, l'implémentation, les cas
        d'utilisation, les projets en cours et futurs...

        Orateur: Mattieu Puel (CC-IN2P3)
    • 17:00 18:15
      Lightning Talks
      • 17:00
        VIP : applications scientifiques, services et interopérabilité 5m

        VIP (Virtual Imaging Platform) est un portail web (https://vip.creatis.insa-lyon.fr) pour l’imagerie médicale. VIP compte, en avril 2018, plus de 1000 utilisateurs enregistrés et une vingtaine d’applications. En utilisant des ressources de calcul et stockage distribuées, VIP offre à ses utilisateurs académiques des services leur permettant d’exécuter simplement et de manière distribuée des applications d’imagerie médicale. VIP vise à faciliter le déploiement des applications en tant que services, l’accès aux applications et aux ressources de calcul distribué, ainsi que le partage et la collaboration au niveau national et international. Pour répondre aux besoins des communautés au-delà du biomédical, une deuxième instance de VIP, appelée FG-SOL, a été déployée par France Grilles à l’IPHC (https://sbgsol.in2p3.fr/vip-portal).

        VIP utilise l’instance nationale du service Dirac (https://dirac.in2p3.fr/DIRAC) déployée au CC-IN2P3 pour la soumission de jobs. VIP utilise aussi le système Boutiques pour faciliter le portage des applications et l’interopérabilité. Boutiques (https://github.com/boutiques/boutiques) est un référentiel d'applications qui permet l'import et l'échange d'applications dans les plates-formes d'analyse des données. Il repose sur des conteneurs Linux (Docker et Singularity) pour résoudre le problème de l'installation de l'application d'une manière légère et il utilise le format JSON pour décrire la ligne de commande à exécuter. VIP implémente l’API CARMIN, définie par les membres de l'infrastructure nationale France Life Imaging (FLI), pour permettre une meilleure interopérabilité entre les plateformes de traitement comme VIP et de stockage de données (par exemple, Shanoir).

        Orateurs: Sorina POP (CNRS, Creatis), Axel BONNET ({CNRS}UMR5220)
      • 17:05
        Gestion des cycles de vie des containers pour le HPC 5m

        L’utilisation des containers dans le domaine du calcul haute performance ouvre de nouvelles perspectives, à la fois pour les utilisateurs et pour les administrateurs d’infrastructures de calcul. Les premiers gagnent un contrôle fin sur leur environnement d’exécution, tandis que les seconds peuvent espérer une simplification de leurs tâches liées à la maintenance des environnements logiciels. Cette nouvelle flexibilité amène de nouvelles problématiques, notamment pour ce qui concerne la gestion des cycles de vie des containers. En effet, la vision naïve qui se limite aux actions de création, d’exécution et de destruction des containers se heurte au besoin d’avoir un contrôle satisfaisant sur ce qu’ils contiennent. Il s’agit typiquement de pouvoir tracer les évolutions d’un container, par exemple pour suivre les expérimentations (essai d’une nouvelle librairie par exemple) et de permettre un retour rapide vers une version donnée. Cette présentation aborde cette problématique du point de vue des environnements de calcul haute performance afin de présenter une solution satisfaisant leurs contraintes, notamment en terme de sécurité.

        Orateur: Matthieu Perotin (Bull HPC)
      • 17:10
        Le développeur et l'orchestration 5m

        Les infrastructures immuables l’orchestration de conteneurs et les ressources cloud ont redéfini la manière d’opérer les applications en production. Mais qu’en est-il du développeur ? Comment lui faire bénéficier des avantages de cette infrastructure qui réduit les risques de bugs en production, en conservant une rapidité et une simplicité de développement ?
        Intégrer chaque acteur qui participe au cycle de vie d’une application nécessite de réfléchir à une solution d’ensemble. Pour cela le Cloud, Docker et Kubernetes permettent désormais de créer un environnement de développement qui améliore la qualité du code et la rapidité de développement, tout en réduisant le temps de mise sur le marché et les coûts. Cela permet enfin de donner des outils fiable aux entreprises pour mettre en œuvre une culture DevOps complète, apportant ainsi un fort avantage concurrentiel.
        Dans cette présentation, j’expliquerai comment en interne chez Ov Corporation nous avons conçus cet environnement avec Kubernetes et Google Cloud Platform.

        Orateur: Benjamin ROZIERE (LPC Clermont-Ferrand)
      • 17:15
        An experimental survey on big data frameworks 5m

        Recently, increasingly large amounts of data are generated from a variety of sources.Existing data processing technologies are not suitable to cope with the huge amounts of generated data. Yet, many research works focus on Big Data, a buzzword referring to the processing of massive volumes of (unstructured) data. Recently proposed frameworks for Big Data applications help to store, analyze and process the data. In this paper, we discuss the challenges of Big Data and we survey existing Big Data frameworks. We also present an experimental evaluation and a comparative study of the most popular Big Data frameworks with several representative batch and iterative workloads. This survey is concluded with a presentation of best practices related to the use of studied frameworks in several application domains such as machine learning, graph processing and real-world applications.

        Orateur: Wissem Inoubli (LIPAH)
      • 17:20
        Les catalogues LSST dans Kubernetes 15m

        Le Large Synoptic Survey Telescope (LSST) va bouleverser l’astronomie. Équipé du plus grand capteur photographique jamais conçu pour l’astronomie, ce télescope permettra de constituer le plus large et le plus profond relevé de l’univers. Dès sa mise en exploitation en 2022, le traitement des données produites par LSST nécessitera des dizaines de milliers de processeurs et une capacité de stockage de données en augmentation de plusieurs dizaines de pétaoctets chaque année et ce pendant au moins une décennie.

        Des objets célestes et leurs propriétés physiques seront identifiés et catalogués dans une base de données qui sera composée à terme de milliers de milliards d’entrées. D’un volume de l’ordre de plusieurs dizaines de pétaoctets, ce catalogue jouera un rôle majeur dans l’exploitation scientifique des données produites par le télescope. Pour satisfaire ce besoin, une base de données distribuée de type “New SQL” nommée Qserv est actuellement développée par une équipe majoritairement basée à l’Université de Stanford aux Etats Unis.

        Cette présentation décrira l’architecture de Qserv, les défis auxquels il doit répondre, son état d’avancement ainsi que les résultats de plusieurs campagnes des tests réalisées pendant les dernières années.

        De plus, nous décrirons la manière dont ce produit a évolué vers une architecture micro-service lors de son développement et la manière dont il est aujourd’hui déployé de manière standardisé sous forme de conteneurs orchestrés par Kubernetes. Les avantages et inconvénients de ce type de méthode de déploiement seront également décrites.

        Les contributeurs de cet exposé font partie de l’équipe de développement de Qserv et sont responsable des procédures de gestion à grande échelle et de l’équipe opérant l’infrastructure de tests composée actuellement de 400 processeurs et 500 téraoctets de stockage, localisée au centre de calcul de l’IN2P3 / CNRS.

        Orateur: Fabrice Jammes (CNRS)
    • 09:00 10:30
      Session 3
      • 09:00
        OpenIO 30m
        Orateur: Maxime Thomas
      • 09:30
        Fédération de Cloud 30m

        En France et en Europe, plusieurs initiatives de Clouds fédérés ont vu le jour depuis 2012. Cette présentation détaillera leur architecture, les différents développements logiciels permettant d'améliorer leur inter-opérabilité, ainsi que les outils mis en place pour en faciliter l'utilisation. En conclusion, les défis rencontrés par ces infrastructures dans un contexte technique et scientifique en pleine mutation seront présentés.

        Orateur: Jerome Pansanel (IPHC - CNRS)
      • 10:00
        Cloud Native Computing Foundation 30m
        Orateur: Lucas Kaldstrom
    • 10:30 11:00
      Pause
    • 11:00 11:30
      Session 4
      • 11:00
        Présentation des plateformes PlasciDo 30m
        Orateurs: Emmanuel Coquery (LIRIS - Université Claude Bernard Lyon 1), Frédéric Gaudet (CNRS/LIMOS), Jacques Thomazeau (CNRS/IRIT), Marie-Christine Rousset (LSR-IMAG)
    • 11:30 12:30
      Table ronde
    • 14:00 16:00
      Visite CC