=========================================================================== Participants 30 Octobre prochain : Bordeaux : Pierre (PG), Benoît (BH), David (DB) Grenoble : Catherine (CB) Lyon : Yonny (YC), Hélène (HC) Verce : Geneviève (GM) Cambridge : Tiphaine (TM) == les 3 uses cases potentiels ont été abordés : 1- Spectrométrie/protéomique, 2- Bio-info et 3- Les applications de sismologie -- liées au projet VERCE, en tant qu'observateur pour le moment. Nous nous sommes donc concentrés sur les 2 premiers uses-cases. 1- Spectrométrie/protéomique YC mentionne que ce cas ressemble au cas de Philogénie/génomique, tel que traités au LBBE, irods à l'intérieur des jobs grille sur l'infrastructure TIDRA (2009-2010) qui a donné lieu à Simon Penel l'obtention du Prix des rencontres scientifiques FG 2011. La volumétrie des données était plus importante que le cas 1 ci-dessous: Du séquencing sur des fichiers plats de l'ordre d'un 1To de données (protéomique) pour plus de +2000 et 3000 jobs simultanés; Irods peut être utilisé pour télécharger les données ou pousser les données sur le serveur. YC conclue que la volumétrie sur les données et le nb de job est important à déterminer pour étudier les conditions de configuration irods concrètes. CB mentionne que cette configuration doit tenir compte des limitations de la plateforme irods de Grenoble, à déterminer. YC mentionne que la configuration de irods dimensionnée pour le CC pour TIDRA est de 1 seul serveur. CB : Il faut déterminer le nombre d'accès concurrents - jusqu'à 2000 connexions au CC. Combien de requêtes cela peut-il supporter au LPSC? YC : la nouvelle version irods va pouvoir paramétrer le nb de connexions. En conclusion : Dimensionnement le service /besoins du cas 1 à effectuer Ref : Présentation de Simon Penel aux journée France-Grille 2011 : http://webcast.in2p3.fr/videos-genomique_comparative **************************** I- éléments ******************* - Protéomique et Spectrométrique - Patrick Güterl/Jérôme Pansanel == Jérôme absent ce mardi 30 OCtobre == "Résumé des besoins accès irods: Pour la soumission de nos jobs (cf ref) le logiciel a besoin d'une banque de données qui est un fichier ascii standard d'une taille variant de quelques centaines de Ko à 1-2 Go Lors du lancement d'un job on a dans notre shell 2 commandes lcg-cp permettant de récupérer 2 fichiers sur un SE (sbgse1.in2p3.fr) Lors des tests d'extensibilité (scalability) je me suis rendu compte qu'à partir de 600 jobs lancés à peu prés simultanément (on avait misé sur le décalage des temps d'attente pour lisser les accès mais ce n'est pas suffisant) lcg-cp répond de manière très aléatoire et génère du coup des erreurs. Je viens de faire des tests irods sur la zone ccin2p3/ ccirods.in2p3.fr et avec les commandes iget et iinit sur le wnode et la c’est satisfaisant j'ai lancé environ 2000 jobs sans problème de download de fichiers. Pour l'avenir je pense qu'un accès irods sur zone France-grille plutôt qu'ccin2p3 serait plus judicieux , et du coup un accès serait nécessaire." ref : présentation rencontres scientifiques FG :http://mesogrilles2012.sciencesconf.org/file/17869 **************************** I- éléments ******************* 2- Bio-info TM : Les calculs (via worklow) génèrent les données qui sont en fait les méta-données qui sont utilisées pour la recherche sur les données du Séquenceur YC mentionne que Irods génère des méta données : clef-valeur pour utiliser dans la recherche de données, il permet aussi l'interface avec une base de données externe décrivant les méta données (par exemple la structure des données qui sorte du séquenceur) Quelle est la structure des données? TM mentionne qu'elle est variable. YC mentionne l'exemple des Meta-données pour DICOM - format d'imagerie médicale. irods extrait les meta-données - clef-valeur- pour les injecter dans la base irods sur lesquels on peut ensuite faire des recherches. DB ou TM n'ont pas la connaissance du formalisme de méta-données de départ, et comment on peut traiter ces données là. YC suggère de prendre des données de base de TM à défaut de données réelles du séquenceur pour l'instant et de les coupler avec le pipeline que TM a déjà testé sur le cluster de PG (Le pipeline est un Workflow simple qui pourra utiliser les règles simples de Irods ou un outils externe à irods. PG mentionne que l'Infrastructure de test irods à Bordeaux est disponible pour faire des tests selon les besoins de TM avec l'aide de YC. YC mentionne qu'il serait utile de balayer les cas de figures possibles pour la gestion des meta-données: TM et DB pensent qu'une fois les premiers tests faits, cela stimulera les discussions et l'arrivée des autres cas de figure. En conclusion : Recensement des types de metadonnées qui vont sortir du Séquenceur à effectuer en fonction d'un premier test en cours à Bordeaux sur des données factices et un workflow connu. **************************** II - éléments ******************* - Bio-Info : Tiphaine Martin/Pierre Gay "Une des attentes pour faciliter le traitement bio est d'avoir un catalogue de méta-données rattaches à ces données pour facilement les accéder. Un ensemble de pre-traitement qui est effectué des la sortie des données brutes, la possibilité de lancer un ensemble de workflow (certains steps demandent bcp de mémoire, d'autres sont exécutés sur un ensemble de millier de fichier indépendant mais sans avoir besoin de beaucoup de mémoire ou CPU) et que l'ensemble du lancement et suivi de job puisse se faire par une interface web. Je pense que cela demande la combinaison de plusieurs outils. C'est proche de ce qui existe dans VIP. Pour la partie IRODS, voici un texte un peu plus explicite de l'attente a améliorer : Avec l'arrivée des nouveaux des séquenceurs, une production d'1 To de données est produit par un séquenceur par semaine actuellement. Afin de comparer les données entre elles, un point important est tout d'abord d'avoir les méta-données de production et de traitements effectuées sur les données et la relation entre les méta-données. Les données sorties des séquenceurs subissent un ensemble de pre-traitement qui devrait être déclenchés à leurs arrivée dans le lieu de stockage. A partir de ces pré-traitements, un ensemble de workflow pourra être exécuté selon la problématique et la sélection de données via les méta-données. Les méta-données permettront une recherche et une sélection par les biologistes d'un ensemble de données selon des critères et faciliter d'effectuer différents traitements sur l'ensemble de données obtenues au cours du temps. L'exécution dès la production et l'arrivée dans la zone de stockage permettra un gain de temps dans l'analyse des données." Ref : cas d'utilisation d'IRODS cote bioinfo : http://www.biomedcentral.com/1471-2105/12/361 **************************** II - éléments ******************* 3- Les applications de sismologie -- liées au projet VERCE, en tant qu'observateur pour le moment. **************************** III - éléments ******************* - VERCE : Geneviève Moguilny/David Weissenbach == définition d'un cas d'application précis en cours == Infrastructure de données existantes: EIDA/AIESM (100To/an): Problématique: -- d'accès aux données dont la visualisation et de lancement d'outils d'analyse pour les simulations et les méthodes d'inversion propres à la sismologie. -- d'accès aux infrastructures de calculs (distributed data mining de données et mining de données distribuées, instances de worflows de taches asynchrones à lancer selon l'architecture voulue (grille/cloud/hpc). Nécessité d'un cloud orienté données, d'un réseau performant à l'échelle de 2à 4 ans, en liaison avec les mésocentres de paris S-capad et Grenoble, et l'infrastructure de grille. Ref : http://webcast.in2p3.fr/videos-le_projet_verce_et_l_evolution_du_mesocentre_de_l_ipgp **************************** III - éléments *******************