Fredéric Schaer [FS], Victor Mendoza [VM], Cécile Barbier [CB], Pierre Girard [PG], Jérôme Pansanel [JP], Hélène Cordier[HC] -- contexte de la première réunion: Présence de J.Pansanel et V. Mendoza en renfort à la liste de déploiement et certification. Il s'agit de voir comment ces personnes peuvent contribuer à ce groupe de travail. Pierre précise que l'on n'est plus en mesure de certifier les sites dûs aux changements des tests de monitoring et à l'évolution des composants mw. Pierre est seul pour maintenir une infrastructure de test de qualité (qui n'existe plus maintenant). -- mission : certification Cette infrastructure de certification se composait du "site ROC-FR" comprenant 1 WMS/LB, 1 site BDII, 1 TopBDII : composants à re-construire L'ancienne infrastructure permettait de soumettre des tests on-demand. De plus pour l'aspect monitoring: nous avions un WMS et TopBDII ayant les sites de production et les sites de non production. Hélène fait remarquer que la NGI Espagnole demande à EGI de centraliser une telle infrastructure (RT#302). PG est en faveur d'avoir sa propre infrastructure. Les noeuds TopBDII et WMS de cette infrastructure de test, si utilisés par le groupe Monitoring auront besoin d'une QoS. En conséquence, l'ancienne infrastructure de certification permettrait de certifier des noeuds, comme cela a été le cas pour cream ce et argus. -- mission : déploiement Pierre Girard assurait aussi la mission déploiement dans EGGE pour SA1-FR et Michel Jouvin le suivi de Quattor: (Ce groupe de travail ne repose plus que sur la tête de Michel J. seulement puisque Jérôme et l'IPHC sont impliqués maintenant) Aujourd'hui, seul un rôle de consultation et expertise de MJ et PG est envisageable. -- Pourquoi séparer les infrastructures de test et de production: - le rôle des 2 infrastructures ainsi que les compétences necessaires pour leur gestion sont différentes: (Prod avec certification avec OPS - dteam en infrastructure de test) En outre, on peut tester l'ensemble de la procédure de certification opérationnelle et fonctionnelle c'est-à-dire procédurale. Hélène précise que cette procédure de certiofication est en train de se mettre en place au fur et à mesure avec le use-case de LILLE1. - Formation : Pierre précise qu'il ne faut pas utiliser les outils de production à des fins autre. -- Quel type d'infrastructure: - Faire une Nagios box dédiée? A priori le besoin s'en fait sentir pour pouvoir former les nouveaux sites à la gestion de leurs alarmes et tester la qualité matérielle et procédurale du site. Sans Nagios Box: le site doit soumettre des jobs à partir d'une UI sur les services qu'ils ont monté. - Faire une Insfrastructure sur VM : FS fait remarquer que le WMS est instable et demande à être re-démarré. PG faire remarquer que plusieurs instances de ces noeuds permettent d'avoir un confort de fonctionnement sans demander des procédures particulières de haute disponibilité. Sans GOCDB regionale : ok pour l'instant; mais il faudra demander au groupe monitoring d'intégrer des sites qui ne sont pas en production. -- Les souhaits et les besoins concernant la répartition des rôles des membres du groupe: - Jérôme Pansanel souhaite s'investir dans le rôle certification : fournir des noeuds de tests à partir de l'inventaire des services à répartir fournie par Pierre G. et fournir du manpower pour la partie Nagios des tests à déployer. Enfin, fournir de l'aide au déploiement sur site. PG demande à animer le wiki France-Grilles / Eric Fede (avait réfléchi sur une structure de wiki avant de s'occupper de MUST et du groupe AF) ??????? commentaire perso : Doit-on relancer Eric ????????????? PG informe qu'il a des macines sur YAIM -- à passer sur VMWare -- demande de l'aide pour l'administration de ces machines pour une réactivité optimale et l'assistance aux nouveaus sites admins pour l'utilisation de Quattor. PG pense à établir un document détaillant les phases de certification et le rôle du certifieur, PG informe de la non uniformité de charge de travail en terme de support - coups d'accélérateurs. PG demande quel retour sur investissement envisage les volontaires? Jérôme mentionne qu'il est important de rencontrer en amont certains use-cases, qui peuvent se produire dans le cadre de la Grille Régionale. - Les orientations de Victor sont similaires à Jérôme; il souhaite continuer son implication dans Quattor et s'appuyer sur des machines virtuelles pour essayer les nouveaux services pour staged-rollout (test des templates Quattor quel que soit le service/composant) PG pense que cette dernière piste est originale et rappelle qu'il avait soumis à Michel J. l'idée d'integrer un serveur Quattor dans le testbed. Il demande si cela est interressant: FS pense que cela reste d'actualité. ?????????????? Le FW devra rester dans l'iN2P3 ????????? PG résume la discussion en exposant l'idée de "cloud privé" pour le test. --Les particularités à tester: Cécile B mentionne qu'il faudra remplacer le glite apel du CC qui sert de catch-all pour l'instant, par un pre-requis sur les sites. Comment integrer plusieurs sites dans glite Apel? FS mentionne que l'on on peut peut-être s'en passer, il faut juste configurer le CE, - ou n'importe quel service- avec glite apel pour la publication. Cela va dépendre des tests de Fred en cours pour une éventuelle mutualisation de ce service. PG résume que glite apel est un buffer pour la base nationale; les developers de glite apel ne disent pas comment eviter les pbs de surcharge de la DB. Cécile B insite sur l'intérêt de la période d'approbation de 1 mois dans le status "production"; et ce pour : - vérifier la publication du nouveau site de l'accounting correctement et au niveau individuel, - tester la réactivité aux tickets GGUS, - vérifier la réactivité aux incidents de sécurité, - publication dans la base d'accounting nationale. -- Actions: [HC] mailing list : 1 liste certification-l :: à déclarer dans la rubrique "moyens de communication" du wiki [done] [HC] renvoyer le lien concernant staged-rollout à la liste [HC] présentation de ce groupe de travail dans une prochaine visio France-Grilles afin d'identifier les ressources manquantes sur les actions à faire décidées par le groupe [PG] Convoquer la prochaine réunion sur le mode ad-hoc à partir du 22 Novembre. [PG] faire le descriptif des services à prendre en compte dans cette infrastructure de test, [PG] préciser la procedure à franciser, [PG] demander à C. Eloto de remettre en service le topi BDII et WMS, [PG] vérifier comment donner des droits pour des personnes à l'extérieur.