Journées Plateforme

Europe/Paris
Amphi Recherche (Clermont-Ferrand)

Amphi Recherche

Clermont-Ferrand

Campus Universitaire des Cézeaux 63178 AUBIERE CEDEX - FRANCE <A href="http://bit.ly/298drvA">Carte</a>
Description

Les laboratoires LIMOS et LIRIS, le réseau de recherche ANR MDK (Masses de Données et Connaissances)  et le GdR MaDICS (Masses de Données, Informations et Connaissances en Science) organisent des journées « plateformes »  à Clermont-Ferrand les 6 et 7 octobre 2016.

Ces journées sont l’occasion de rencontres entre acteurs académiques et industriels, que nous avons le plaisir de réunir afin d'échanger sur les processus de traitement de masses de données scientifiques ainsi que les infrastructures de calcul et de stockage.


Des retours d'expériences dessineront le paysage actuel, mais l'objectif sera également de nourrir une réflexion sur les évolutions scientifiques, techniques et environnementales de ces plateformes face aux enjeux que représente l'augmentation massive des données collectées.

Partenaires

 

Contact : frederic.gaudet@isima.fr

Participants
  • Alessandro Cerioni
  • Andre Schaaff
  • Angela Bonifati
  • Bastien Doreau
  • BELGHOUL Abdeslem
  • Bogdan Vulpescu
  • Bouet Marinette
  • Bouzeghoub Mokrane
  • Camille Marini
  • Carlos Cepeda
  • Christian Lenne
  • Collet Christine
  • David Hill
  • Emmanuel Coquery
  • Fabrice Jammes
  • Franck Giacomoni
  • François Pinet
  • François Xavier Pineau
  • Frédéric Gaudet
  • George Fletcher
  • Guy Perrière
  • Houssem Chihoub
  • Jacques Thomazeau
  • Joel Marchand
  • Jousse Cyril
  • Julien Maupetit
  • Kévin Gravouil
  • Laurent d'Orazio
  • MAHUL Antoine
  • Marie PAILLOUX
  • Marie-Christine Rousset
  • Mohand Boughanem
  • mohand-Saïd Hacid
  • Myoung-Ah KANG
  • Nestor KOUEYA
  • NGUYEN Cong Danh
  • Nicolas Dumoulin
  • Osman AIDEL
  • Pascale Rosse Laurent
  • Pedro Correia de Matos David
  • Rachid Lemrani
  • Radu Ciucanu
  • Renaud Vernet
  • Rey Christophe
  • Siyou Vanel
  • Stéphane Derrode
  • Toumani Farouk
  • Vasile-Marian Scuturici
  • Vincent Gatignol-Jamon
    • 09:30
      Accueil Amphi Recherche

      Amphi Recherche

      Clermont-Ferrand

      Campus Universitaire des Cézeaux 63178 AUBIERE CEDEX - FRANCE <A href="http://bit.ly/298drvA">Carte</a>
    • PlaScido Amphi Recherche

      Amphi Recherche

      Clermont-Ferrand

      Campus Universitaire des Cézeaux 63178 AUBIERE CEDEX - FRANCE <A href="http://bit.ly/298drvA">Carte</a>

      Présentation des Plateforme SCIentifiques de DOnnées

      • 1
        PerSCiDO_Grenoble_Alpes : Principes et fonctionnalités d’une plateforme ouverte de partage de jeux de données
        PerSCiDO_Grenoble_Alpes est une plateforme de partage de jeux de données, en cours de développement dans le cadre du labex PERSYVAL-lab qui fédère les sciences du numérique à Grenoble. Le but de cette plateforme est de faciliter l’exploration de jeux de données pour les chercheurs désireux de tester et comparer leurs propres méthodes sur de nouvelles données. Une caractéristique importante de PerSciDo_Grenoble_Alpes est de découpler le problème du stockage des jeux de données de leur description à l’aide de métadonnées riches et flexibles. La plateforme PerSciDo_Grenoble_Alpes offrira de manière transparente à ses utilisateurs un espace de stockage adapté en s’appuyant sur des infrastructures mutualisées de type data center ou des serveurs qui hébergent déjà des données ouvertes pour la recherche. L’aspect innovant de PerSciDo_Grenoble_Alpes repose sur son modèle de métadonnées et son infrastructure qui s’inscrivent dans les standards recommandés par le W3C à la base du succès du déploiement du Linked Open Data (http://linkeddata/org).
        Orateur: Mlle Marie-Christine Rousset (Université Grenoble Alpes, CNRS, LIG et IUF)
        Slides
      • 2
        Galactica: l'expérimentation élastique
        Le projet de plateforme Galactica vise la mise en place de services d'ingénierie et d'expérimentation scientifique à grande échelle pour le projet PetaSky. Ce dernier repose sur une approche multidisciplinaire impliquant cinq (5) instituts du CNRS et seize (16) laboratoires de recherches. Galactica se veut comme une plateforme ouverte qui vise trois objectifs majeurs à destination de deux communautés d'utilisateurs : Fournir des services d'ingénierie et d'expérimentation à grande échelle en appui aux travaux de recherche menés dans le cadre du projet PetaSky. Mettre à disposition de la communauté de recherche en Science des Données une infrastructure de stockage et de calcul d'envergure, flexible et configurable selon les besoins spécifiques des expérimentations. Capitaliser sur l'expérience acquise dans le contexte du projet PetaSky, pour constituer et mettre à disposition de la communauté de recherche en Science des Donnés des jeux de grande masse de données et des benchmarks issus du domaine de la cosmologie et de l'astrophysique.
        Orateur: M. Frédéric Gaudet (CNRS/LIMOS)
        Slides
      • 3
        OSIRIM : Observatoire des Systèmes d'Indexation et de Recherche d'Information Multimédia
        Projet fédératif de l’IRIT soutenu par le FEDER, le CNRS, l’État français, et la région Midi-Pyrénées, OSIRIM est une Plateforme de stockage de forte volumétrie conçue pour l’hébergement de projets scientifiques abordant les problématiques liées aux mégadonnées/big data. Elle propose des ressources de stockage et de calcul en support à des travaux scientifiques sur l’indexation et la recherche d’information dans des contenus multimédias. Dans cet exposé, nous reviendrons sur les objectifs de la plateforme et ses domaines d'application, nous décrirons son architecture matérielle ainsi que l'offre de service logicielle proposée pour répondre aux besoins des projets hébergés. Enfin nous expliquerons pourquoi et comment nous repensons actuellement l'architecture logicielle de la plateforme pour répondre à la diversité des besoins en matière de calcul distribué : Slurm, Hadoop, Spark, ...
        Orateur: M. Jacques Thomazeau
        Slides
      • 4
        RAMP: collaborative data challenges run by the Paris-Saclay Center for Data Science
        RAMP (Rapid Analytics and Model Prototyping) are collaborative data challenges, which aim at connecting data science to domain sciences, which is the main mission of the Paris-Saclay Center for Data Science. The lifecycle of a RAMP is the following: A domain science expert brings data and an associated prediction problem, and a data scientist helps clean the data and formulate a machine learning problem. A RAMP event is then organized with 30-50 data scientists and domain scientists. During the RAMP, the participants submit a model generating predictive solutions. The models are trained on our back-end. The scores are displayed on a leaderboard. All participants have access to all code, and they are encouraged to look at and to reuse each other's solutions. Past RAMP lead to a significant improvement over the baseline. Since the organizers have access to all the code, the result of the event is a fully functioning near-optimal prototype. In this presentation, we are introducing the two tools we are building to run these collaborative data challenges: - databoard: a platform where participants can submit their code (machine learning models), see code from other participants, and follow the leaderboard. - datarun: a platform where submitted models are trained.
        Orateur: Mlle Camille Marini
        Slides
    • 12:30
      Déjeuner
    • Plateforme de gestion de données scientifiques: Première partie Amphi Recherche

      Amphi Recherche

      Clermont-Ferrand

      Campus Universitaire des Cézeaux 63178 AUBIERE CEDEX - FRANCE <A href="http://bit.ly/298drvA">Carte</a>
      • 5
        La grille de Calcul du Large Hadron Collider
        La recherche en physique des particules auprès du LHC (Large Hadron Collider) du CERN recouvre des activités diverses depuis la conception des expériences, le suivi des détecteurs, le traitement des données et leur analyse. Avec 40 millions de collisions par seconde et 10^10 collisions enregistrées par an, les données générées par le LHC (une quinzaine de pétaoctets par an) et leur exploitation représentent un véritable défi informatique de par le flux et le volume à traiter. Les laboratoires du monde entier ont fédéré leurs ressources dans la grille de calcul W-LCG (WorldWide LHC Computing and Grid) pour atteindre cet objectif.
        Orateur: M. Stéphane Perries (IPNL)
      • 6
        Le modèle de calcul LCG et ses évolutions
        Orateur: M. Renaud Vernet (CCIN2P3)
        Transparents
      • 7
        Impact des données sur l'infrastructure
        Orateur: Rachid LEMRANI (CC-IN2P3)
        Slides
    • 15:30
      Pause Amphi Recherche

      Amphi Recherche

      Clermont-Ferrand

      Campus Universitaire des Cézeaux 63178 AUBIERE CEDEX - FRANCE <A href="http://bit.ly/298drvA">Carte</a>
    • Plateforme de gestion de données scientifiques: Seconde partie Amphi Recherche

      Amphi Recherche

      Clermont-Ferrand

      Campus Universitaire des Cézeaux 63178 AUBIERE CEDEX - FRANCE <A href="http://bit.ly/298drvA">Carte</a>
      • 8
        Qserv, la base de données destinée à stocker l'univers
        Le Large Synoptic Survey Telescope (LSST) va bouleverser l'astronomie. Équipé du plus grand capteur photographique jamais conçu pour l'astronomie, ce télescope permettra de constituer le plus large et le plus profond relevé de l'univers. Dès sa mise en exploitation en 2022, le traitement des données produites par LSST nécessitera des dizaines de milliers de processeurs et une capacité de stockage de données en augmentation de plusieurs dizaines de pétaoctets chaque année et ce pendant au moins une décennie. Des objets célestes et leurs propriétés physiques seront identifiés et catalogués dans une base de données qui sera composée à terme de milliers de milliards d’entrées. D'un volume de l’ordre de plusieurs dizaines de pétaoctets, ce catalogue jouera un rôle majeur dans l’exploitation scientifique des données produites par le télescope. Pour satisfaire ce besoin, un logiciel spécifique nommé Qserv est actuellement développé par une équipe majoritairement basée à l'Université de Stanford aux Etats Unis. Cette présentation décrira l'architecture de Qserv, les défis auxquels il doit répondre, son état d’avancement ainsi que les résultats de plusieurs campagnes des tests réalisées pendant les dernières années. Les contributeurs de cet exposé font partie de l’équipe de développement de Qserv et de l’équipe opérant l’infrastructure de tests composée actuellement de 400 processeurs et 500 téraoctets de stockage, localisée au centre de calcul de l’IN2P3 / CNRS.
        Orateur: Fabrice Jammes (CNRS)
        Transparents
      • 9
        Le traitement des données omiques à haut débit sur les plateformes du PRABI
        Le traitement des données "omiques" (génomiques, transcriptomiques, protéomiques, métabolomiques, etc.) issues de technologies à haut débit nécessite à la fois des compétences techniques relevant de divers domaines (statistiques, programmation, algorithmique) que des connaissances au niveau de la biologie des organismes étudiés. Par ailleurs, du fait de leur caractère haut débit, ces traitements requièrent de pouvoir disposer de moyens de calculs conséquents. Dans ce contexte, l’Institut Français de Bioinformatique (IFB - http://www.france-bioinformatique.fr/) a pour mission de structurer et de financer les activités de service en bioinformatique. Le Pôle Rhône-Alpes de Bioinformatique (PRABI - http://www.prabi.fr), est ainsi l’un des six centres régionaux IFB. En tant que centre IFB, le PRABI fédère les activités de recherche, de service et de formation en bioinformatique pour la Région Auvergne-Rhône-Alpes. Cette fédération regroupe aussi bien des équipes de recherches que des plateformes de services et l'objectif de cet exposé est donc de vous présenter rapidement les activités de ces plateformes, ceci en regard de la nature des données à traiter et des moyens de calculs nécessaires.
        Orateur: M. Guy Perrière
        Slides
      • 10
        Huma-Num : une TGIR au service des données de la recherche en SHS
        Huma-Num est une très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Pour remplir cette mission, la TGIR Huma-Num est bâtie sur une organisation originale consistant à mettre en œuvre un dispositif humain (concertation collective) et technologique (services numériques pérennes) à l’échelle nationale et européenne en s’appuyant sur un important réseau de partenaires et d’opérateurs. La TGIR Huma-Num favorise ainsi, par l’intermédiaire de consortiums regroupant des acteurs des communautés scientifiques, la coordination de la production raisonnée et collective de corpus de sources (recommandations scientifiques, bonnes pratiques technologiques). Elle développe également un dispositif technologique unique permettant le traitement, la conservation, l'accès et l'interopérabilité des données de la recherche. Ce dispositif est composé d'une grille de services dédiés, d'une plateforme d'accès unifié (ISIDORE) et d'une procédure d'archivage à long terme.
        Orateur: M. Joel Marchand (TGIR Huma-Num)
        Slides
    • Datacenter Amphi Recherche

      Amphi Recherche

      Clermont-Ferrand

      Campus Universitaire des Cézeaux 63178 AUBIERE CEDEX - FRANCE <A href="http://bit.ly/298drvA">Carte</a>
      • 11
        L'UMS GRICAD : un modèle organisationnel original au service des données et du calcul
        Le traitement des données massives pose un quadruple défi aux projets de recherche voulant exploiter le contenu de ce type de données. On peut relever : - un problème de stockage - un problème de puissance de calcul - un problème d’ingénierie logicielle pour l'utilisation d'outils existants - un problème de ressources humaines pour répondre aux 3 défis précédents. L'UMS GRICAD créée en janvier 2016 a pour mission d'apporter des solutions afin de répondre aux challenges posés par le traitement des données massives et le calcul intensif. Si les questions techniques sont importantes, le coté ressources humaines nous semble être le problème le plus difficile à résoudre dans le contexte économique et politique actuel. Les changements majeurs du site grenoblois en 2015/2016 (fusion des 3 universités, regroupement physique de laboratoires, IDEX) ont été propices à la mise en place d'une telle structure basée sur un modèle organisationnel original que nous détaillerons après avoir exposé le contexte. Nous ferons un premier bilan des retours de communautés diverses (économistes, biologistes, informaticiens, ...) sur la mise en place de GRICAD.
        Orateur: M. Christian Lenne (Université Grenoble Alpes)
        Slides
      • 12
        Cas d’utilisation de Spark en Astrophysique : Cross Match de catalogues de sources
        To face the increasing volume of data we will have to manage in the coming years, we test and prototype implementations in the Big Data domain (both data and processing). The CDS propose a "X-Match" service which does a cross correlation of sources between very large catalogues (10 billions rows). It is a fuzzy join between two tables of several hundred millions of lines (e.g. 470,992,970 sources for 2MASS). A user can do a cross-match of the (over 10,000) catalogues proposed by the CDS or he can upload his own table (with positions) to cross-match it with these catalogues. It is based on optimized developments implemented on a well-sized server. The area concerned by the cross-match can be the full Sky (which involves all the sources), a cone with only the sources (which are at a certain angular distance from a given position), or a HEALPix cell. This kind of treatment is potentially "heavy" and requires appropriate techniques (data structure and computing algorithm) to ensure good performances and to enable its use in online services. Apache Spark seemed very promising and we decided to improve the algorithms, by using this technology in a suitable technical environment and by testing it with large datasets. Compared to Hadoop, Spark is designed to do as much as possible the treatments in the RAM. We performed comparative tests with our X-Match service. In a first step we used an internal and limited test bed to learn and to gain the necessary experience to optimize the process. In a second step we did the tests with a rented external cluster of servers. At the end we reached an execution time better than the X-Match service. We will detail this experiment step by step and show the corresponding metrics. We will focus on the bottleneck we encountered during the shuffle phase of Spark and especially the difficulty to enable the « data co-location » which is a way to decrease the data exchange between the nodes.
        Orateur: M. Andre Schaaff (Observatoire de Strasbourg - CDS)
        Slides
    • 10:30
      Pause Amphi Recherche

      Amphi Recherche

      Clermont-Ferrand

      Campus Universitaire des Cézeaux 63178 AUBIERE CEDEX - FRANCE <A href="http://bit.ly/298drvA">Carte</a>
    • Big Data & HPC: Première partie Amphi Recherche

      Amphi Recherche

      Clermont-Ferrand

      Campus Universitaire des Cézeaux 63178 AUBIERE CEDEX - FRANCE <A href="http://bit.ly/298drvA">Carte</a>
      • 13
        Le point de vue ATOS sur la convergence big Data HPC
        Le Big Data analytics et le HPC des grands calculateurs ont apparemment des besoins très éloignés. Pourtant ces deux domaines adoptent les mêmes technologies telles que les coprocesseurs, les mémoires non volatiles, traitent de grandes masses de données hétérogènes .. ou s’intéressent à des traitements parallèles quasi temps réels des données Le défi que pose le traitement et la gestion massive de données rapprochent les écosystèmes bigdata et HPC. De la mutualisation de ressources à la convergence des paradigmes d’exécution, une évolution des centres de calcul est en route. Cette présentation est une sensibilisation à ces évolutions avenir…
        Orateur: Mme Pascale Rosse Laurent
      • 14
        Reproducible High Performance computing for stochastic models and simulations
        Numerical reproducibility has been the rule for years with old single-core CPUs, standards for numerical computing (such as IEEE 754 for floating point computing for instance) and hardware features like ECC memory. Numerical reproducibility It is a key feature for computational science and the experimental scientific method. Being able to obtain exactly the same results from run to run when the environment and parameters are the same, is essential for debugging. However, hardware developments over the past decade have made it almost impossible to ensure computational reproducibility on high performance systems without a significant loss of performance. Not being able to debug a program for some scientific cases means we have lost an essential feature of our Turing machines. If top scientists are aware of the importance of numerical reproducibility and of their sources, many colleagues just have to be trained to realize the impact of this problem on their numerical computing. In this talk we will look at the causes of this loss of reproducibility. We will start with CPUs using out-of-order execution to improve performance and we will also examine what is called soft errors on large computing systems. We will also present some methods to avoid reproducibility losses for stochastic simulations.
        Orateur: Prof. David HILL (Blaise Pascal University)
        Slides
      • 15
        MassifIX : une plateforme d’interconnexions locales pour le transfert massif de données
        Orateur: M. Damien LEBRET
        Slides
    • 12:45
      Déjeuner Caféteria Pôle Commun

      Caféteria Pôle Commun

      Clermont-Ferrand

      Campus Universitaire des Cézeaux 63178 AUBIERE CEDEX - FRANCE <A href="http://bit.ly/298drvA">Carte</a>
    • Big Data & HPC: Seconde partie Amphi N°2 Pôle Commun (Clermont Ferrand)

      Amphi N°2 Pôle Commun

      Clermont Ferrand

      • 16
        Mesocentre Clermont Auvergne
        Orateur: Dr Antoine Mahul
        Slides
      • 17
        Une étude de performance et de passage à l’échelle des systèmes de traitement de données dans les smart grids
        De nos jours, la taille des données générées et collectées au sein des smart grids ne cesse d’augmenter. Ces données proviennent, en grande partie, des compteurs communicants ainsi que les capteurs déployés massivement à travers le réseau électrique. De plus, la génération de plus en plus fréquente de ces données, introduit de nouveaux défis de performance et de passage à l’échelle pour les systèmes traditionnels de gestion de données smart grid. Dans ce travaille, nous menons une étude de comparaison afin d’explorer les capacités de différentes approches de gestion et de traitement de données pour le cas de compteurs communicants. A cette fin,  nous menons une série d’expériences approfondies afin d’évaluer plusieurs systèmes pour des traitements types sur les données de compteurs. Parmi ces systèmes, nous déployons un système de gestion de bases de données relationnelles réparties (RDBMS), des systèmes basés sur Map Reduce comprenant Hadoop et Spark, et un système NoSQL avec une architecture pair à pair. Les ensembles d’expériences ont été conduits sur la Grid’5000 sur un ensemble de données de 1.4 To et jusqu’à 140 nœuds de calcul (serveurs).  Les résultats obtenus démontrent que les RDBMS répartis sont plus adaptés pour les traitements de calculs intensifs d’agrégations mais sont très lents pour charger les données. En revanche, nous démontrons qu’avec une bonne combinaison de modèles et de systèmes, nous atteignons d’excellentes performances à l’échelle et cela pour les traitements les plus coûteux sur les données de compteurs.
        Orateur: M. Houssem Chihoub (INPG Entreprise SA)
        Slides
    • 15:30
      Clôture Amphi N°2 Pôle Commun

      Amphi N°2 Pôle Commun

      Clermont-Ferrand