Séminaires

Le partenariat entre BIOASTER & CC-IN2P3, ou comment le CC-IN2P3 se place au cœur de la stratégie Big Data & HTC d’un Institut de Recherche Technologique des Sciences du Vivant

Europe/Paris
Amphi (CC-IN2P3)

Amphi

CC-IN2P3

Description

Préambule

BIOSASTER est le seul Institut de Recherche en Technologie (IRT) consacré exclusivement aux sciences de la vie et à la santé. Implanté à Lyon Gerland depuis 6 ans, l’institut se focalise sur la microbiologie et les maladies infectieuses, et plus particulièrement quatre programmes de recherche: les antimicrobiens, les vaccins, le diagnostic et le microbiote. Pour lever les verrous et explorer de nouvelles voies technologiques, BIOASTER conduit des programmes de R&D collaboratifs qui rassemblent académiques, start-ups, PME et groupes industriels autour d'unités technologiques et programmes d'excellence.

Les technologies mises en œuvre au sein des projets collaboratifs de BIOASTER génèrent des connaissances sur les molécules (ou « omiques ») agissant au cœur des processus biologiques et révélatrices d’un état physiologique particulier: individu sain, malade, vacciné, traité…Les technologies « omiques » ciblent les gènes (génomique et transcriptomique), les protéines (protéomique) ou encore les sucres, les lipides ou d’autres composés chimiques (métabolomique). Leur exploitation conjointe permet de documenter et comprendre les mécanismes d’action de drogues ou de vaccins adjuvantés, de trouver des biomarqueurs utiles au diagnostic, de prédire des comportements à l’échelle d’une population…

Séminaire

Les « omiques » ont fait entrer les sciences du vivant dans l’ère du Big Data, même si les échelles restent plusieurs logs en-deçà de celles des activités 100% numériques des TechGiant type GAFA ou de certaines disciplines scientifiques, notamment celles que le CC-IN2P3 a pour vocation première d’adresser. Leur coût ou difficulté d’acquisition, leur rareté voire même unicité (échantillon clinique par exemple) en font des données précieuses dont la gestion, la traçabilité, le stockage, l’analyse et l’assurance de leur pérennité sont autant de défis à relever dans un environnement soumis à de nombreuses contraintes légales, éthiques, réglementaires, contractuelles…

Dès 2014, BIOASTER et le CC-IN2P3 se sont engagés dans une collaboration étroite visant à faire bénéficier l’Institut des ressources jusqu’ici réservées aux physiciens explorant les deux infinis. Au cours de ce séminaire, nous montrerons comment GPFS est au cœur du data management générique appliqué à tous nos projets, nous illustrerons comment la plateforme gitlab constitue un pivot pour nos activités d’ingénierie logicielle et d’intégration continue DevOps et à quel point le Cloud OpenStack ou la ferme de calcul UGE sont centraux pour répondre aux besoins HTC allant croissants de nos projets. Certains de ces projets, pluriannuels, totalisant plusieurs M€ et générant jusqu’à 100 To de données, requièrent un niveau élevé d’intégration de données de haute dimension que les statisticiens et bioinformaticiens  de BIOASTER réussissent à atteindre en exploitant les dernières avancées d’analyses statistiques et de machine learning.

Enfin nous illustrerons comment BIOASTER a complété l’offre SaaS ou PaaS du CC-IN2P3 avec ses propres éléments d’infrastructure afin de répondre aux spécificités de ses activités : par exemple, ajout de blades 800Go RAM au Cloud OpenStack pour prendre en charge les analyses NGS (Next Generation Sequencing) en génomique; autre exemple : l’hébergement d’un cluster VMware pour accueillir des services transversaux à BIOASTER requérant une haute disponibilité dont nous présenterons certains exemples. LIMS, BIOASTER User Management Platform,…

Intervenants:

  • Pierre VEYRE : Ingénieur Cloud
  • Pengfei LIU, PhD : Ingénieur Cloud
  • Audrey CAUCHARD : Data Manager
  • Nicolas SAPAY, PhD : Chargé de Recherche, responsable du pôle Data Sciences
  • Guillaume BOISSY, PhD : Head of Technology Unit, Data Management & Advanced Analysis

 

Un petit-déjeuner offert par BIOASTER précèdera ce séminaire de 10h à 10h30.