visioconférence du groupe SA1-FR d'EGEE ======================================= Date : Mardi 4 octobre 2005, 14h Présidé par: Rolf Rumler (CC-IN2P3) Secrétaire: Pierre Girard (CC-IN2P3) ***************** * Ordre du jour * ***************** 1) Approbation du compte-rendu de la dernière visioconférence (tous) http://agenda.in2p3.fr//askArchive.php?base=agenda&categ=a0520&id=a0520/minutes 2) Tour des sites * Sujets à traiter : - Bienvenue à SUBATECH (Nantes). - Procédure de centralisation pour la diffusion et le partage des "fix" sur le middleware: David Smith. - CC-IN2P3 - CPPM Marseille - LPC Clermont - CGG - IPSL - LAPP - CINES - GRIF * CEA Saclay * LAL Orsay * LPNHE - SUBATECH Nantes 3) Tour des VOs - BIOMED - EGEODE - ESR 4) Migration du serveur VOMS au CC - version: gLite 1.3 - VOs ciblées: Egeode (Production), Biomed (Pré-production), Auvergrid (Production) 5) Rapport hebdomadaire de la GDA sur le site web CIC (Osman) - Nouveauté : implication des sites - Agenda prévisionnel : béta-test pour le ROC français à partir du 14/10, puis en production le 21/10 6) Réunions - passées * Réunion CIC-on-duty le 26 septembre au RAL http://agenda.cern.ch/fullAgenda.php?ida=a051454 * Operations Workshop le 27 au 29 septembre au RAL http://agenda.cern.ch/fullAgenda.php?ida=a054670 * All ROC Managers' meeting le 30 septembre au RAL http://agenda.cern.ch/fullAgenda.php?ida=a051455 * Téléconf CIC managers, le 23 septembre et le 4 octobre http://agenda.cern.ch/fullAgenda.php?ida=a053584 * Les GDA des 26 septembre et 3 octobre http://agenda.cern.ch/displayLevel.php?fid=258 - à venir * Téléconf ROC managers, le 18 octobre http://agenda.cern.ch/fullAgenda.php?ida=a053725 * Téléconf CIC managers, le 19 octobre http://agenda.cern.ch/fullAgenda.php?ida=a053586 * 4ième Conférence EGEE, Pise, du 24 au 28 Octobre http://agenda.cern.ch/fullAgenda.php?ida=a051099 7) Divers * Fête de la science : démo d'applications grille ? ##################################################################################### *********** * Réunion * *********** 0) Liste de présence / site : ------------------------ - Absents annoncés : Michele Detournay - CC.IN2P3.FR (4) David Bouvet Osman Aidel Pierre Girard Rolf Rumler - CGG.COM (3) Ahmed Beriache Gerald Vetois Gerard Gadaud - CINES (0) - CLERMONT.IN2P3.FR (3) Emmanuel Medernach Jean-Claude Chevaleyre Yannick Legre - CPPM.IN2P3.FR (2) Edith Knoops Eric Fede - DAPNIA.CEA.FR (4) Christine Leroy Michel Winkler Pierrick Micout Zoulikha Georgette - IBCP.FR (1) Vincent Lefort - IPSL / IPGP (0) - LAL.IN2P3.FR (3) Cedric Duprilot Charles Loomis Daniel Jouvenot - LAPP.IN2P3.FR (2) Frederique Chollet Le Flour Muriel Gougerot - LPNHE.IN2P3.FR (0) Total: 23 personnes 1) Approbation du compte-rendu de la dernière visioconférence (tous) ---------------------------------------------------------- http://agenda.in2p3.fr//askArchive.php?base=agenda&categ=a0520&id=a0520/minutes Approuvé. 2) Tour des sites -------------- * Sujets à traiter : **************** - Bienvenue à SUBATECH (Nantes). - Procédure de centralisation pour la diffusion et le partage des "fix" sur le middleware: David Smith. (Cf. CC-IN2P3) - CC-IN2P3 ******** * Diffusion et partage de "fix" sur le middleware: Lors du All ROC managers meeting à Culham, la semaine dernière, le ROC italien a annoncé qu'ils avaient apporté des "fixs" sur certaines parties du Middleware. Apparemment, d'autres personnes du projet s'étaient intéressés au même problème. Le manque de coordination ayant ainsi été soulevé, Ian Bird et Markus ont proposé qu'il y ait une coordination centrale concernant les "fixs" ou tout autre développement autour du middleware déployé. La personne désignée pour cette coordination est : David Smith du CERN. Le principe est de passer par David Smith avant et après avoir "fixé" un problème. Ainsi, si qq'un est déjà en train de le résoudre, ou mieux, l'a déjà résolu, le travail ne sera pas effectué deux fois. Pierre propose que l'on fonctionne de la même façon au niveau du ROC et qu'on soit l'intermédiaire entre David et les sites. * Statut du site IN2P3-CC: Les WNs et le CE ont migré en LCG2.6.0. L'installation des WNs est maintenant partagée via AFS, et plusieurs versions du middleware peuvent coexister. Le choix d'une version se fait au niveau du CE et s'applique à l'exécution du job (jobwrapper). Le BDII/GIIS a aussi migré en LCG2.6.0, intégrant le nouveau Glue Schema (V1.2). Un problème a été rencontré avec le RLS/RMC de biomed, car les commandes lcg-* ne supportent pas encore la nouvelle version du Glue Schema. Il a donc fallu revenir sur la description précédente des services RLS/RMC (Glue Schema 1.1). Un SE dcache est en cours d'installation en LCG2.6.0, les autres SE classiques devraient migrer prochainement. - CPPM Marseille ************** Rien de spécial. - LPC Clermont ************ Migration en 2.6 en cours. Remplacement en cours d'un SE et d'un CE, car les machines sont maintenant trop vieilles. Un nouveau site a vu le jour à Clermont pour supporter la VO Auvergrid, grille régionale. Ce site comporte 1 CE et un cluster de 30 WNs. Il sera aussi ouvert aux VOs LCG/EGEE suivant des quotas qui restent à définir. Le site AUVERGRID est réparti sur 5 sites : 4 CE et une centaine de WNs. Q(Tibor): l'espace Scratch est insuffisant pour les jobs dzero. Est-il possible de redéfinir le TMP_DIR afin qu'il pointe sur l'espace "home". R(Jean-Claude): Il y a 20 Go sur le home. Après la migration en 2.6, on s'occupera de fixer le TMP sur l'espace home. Q(Tibor): Un des CEs semble avoir des problèmes depuis quelques temps. R(Jean-Claude): Attention, plusieurs manipulations ont eu lieu, un CE a disparu du site, il y a en plus un Scheduled Downtime qui a été posé. R(Pierre): Lors de la soumission d'un job, il faut s'assurer que le CE est présent dans le système d'information et qu'il publie bien le statut "Production". Pierre verra avec Tibor ce qu'il doit faire lors de sa soumission pour éviter des soumissions sur des CEs qui sont officiellement hors production. - CGG *** LCG2.6.O: Des problèmes avec la variable GLOBUS_TCP_PORT_RANGE. Le problème a été posé sur LCG-ROLLOUT, une solution a été proposée et reste à tester. Ce sera fait dès que l'opération de maintenance en cours sera finie. - IPSL **** Absent. - LAPP **** RAS pour le site. En contact avec des laboratoires de l'université de Savoie travaillant dans le domaine des Sciences de la Terre. Ces laboratoires seraient éventuellement intéressés pour intégrer la VO ESR. Frédérique a envoyé un mail à Monique Petitdidier pour en discuter. - CINES ***** Absent. - GRIF **** * CEA Saclay Installation en cours de diverses machines. Il reste à voir si elles seront intégrées dans le site GRIF ou le site DAPNIA. * LAL Orsay RAS * LPNHE Absence annoncée. - SUBATECH Nantes *************** Il y a eu des échanges de mail avec Fabien Wernli du CC concernant la première installation. Fabien et/ou Yannick du CC devraient aller à Subatech pour aider à la première installation. En attendant, le travail est dégrossi par échanges de mails. Rolf conseille de ne pas tarder à faire venir les sysunix du CC car l'expérience montre que c'est efficace. La configuration de ce nouveau site est: - Cluster de 20 machines (engagement pour 2005). - Un serveur de disque de 512Go (via NFS). - utilisation de openPBS. Alice utilise déjà le site avec Alien. l'équipe se compose de 4 informaticiens qui fonctionnent en équipe. 3) Tour des VOs ------------ - BIOMED ****** Le DC est en train de se terminer doucement, les derniers résultats sont en cours de récupération. - EGEODE ****** RAS. - ESR *** Absent. Rappel (Cf. section tour des sites-LAPP): le LAPP est en contact avec des laboratoires qui pourraient être intéressés par la VO ESR. 4) Migration du serveur VOMS au CC ------------------------------- - version: gLite 1.3 - VOs ciblées: Egeode (Production), Biomed (Pré-production), Auvergrid (Production) Objectifs: Le CC va mettre en place un serveur VOMS pour supporter les VOs citées ci-dessus en production ou en pré-production. celà signifie que ce serveur VOMS sera administré au niveau du CC avec la qualité "production" (surveillance, backup, etc.). Yannick: OK pour la VO biomed en pré-production, sachant que plus vite ça pourra être utilisé en Production, mieux ce sera. R(Pierre): attention, il faudra dans ce cas que les sites fassent la configuration au niveau de leur noeud pour pouvoir utiliser le serveur VOMS. De plus, il faudra envisager une migration du contenu du serveur LDAP vers la base VOMS. Jean-Claude: La VO Auvergrid suivra le mouvement, mais pour l'instant, elle fera avec ce qu'elle a. Quelle est la durée de vie du serveur LDAP pour cette VO. Pierre: C'est une machine isolée, en RH7.3, donc plus vite on pourra s'en débarrasser mieux ce sera. Mais tant que les VOs en auront l'utilité, la machine restera online. Mise en place: Le dernier point avant de pouvoir réinstaller le serveur que nous avions mis en place pour le testbed VOMS français est de savoir quelle version utilisée et avec quelle type de SGBD. Nous sommes en cours de discussion sur la mailing-list de la pré-production pour établir la meilleure configuration pour commencer. La version R1.3 du serveur VOMS, la dernière certifiée, possède beaucoup de bugs et ne tient pas plus de 2h. Elle ne supporte que MySQL. La nouvelle version R1.4 n'est pas encore certifiée mais devrait être plus stable. Elle supporte de plus MySQL et Oracle 10. Nous attendons actuellement de savoir si nous pouvons d'ores et déjà installer la version R1.4. Concernant le type de SGBD, nous avons une préférence pour une solution Oracle, mais la version actuelle est Oracle 9, un cluster Oracle 10 est en cours d'installation/test. A priori, nous commencerons avec MySQL et migrerons vers Oracle 10 qd il sera disponible. En effet, il y a un outil prévu avec la R1.4 pour celà. Questions de planning: Q(Yannick): Concrétement, quand la VO Biomed peut-elle espérer un serveur VOMS ? R(Pierre): Nous avons la machine, les seules inconnues sont de savoir quelle version de VOMS installée, quel type de SGBD utilisé, et comment se comporte l'installation gLite. Les deux premiers points devraient être résolus dans les 2 prochains jours, et David (Bouvet) est disponible pour l'installation. On peut donc raisonnablement espérer avoir une installation pour validation à la fin de la semaine prochaine. Nous vous tiendrons au courant de l'état d'avancement, notamment si l'on rencontre des problèmes qui risquent de nous retarder. Yannick: Pour le déploiement sur les sites, comment ça se passe pour prendre en compte les groupes/rôles/... Pierre: Ce n'est pas mieux qu'avant, chaque site admin devra faire son fichier de configuration au niveau des CE/SE pour mapper un groupe/role vers les comptes et groupes unix qui conviennent. Les sites admins ne verront surement pas du meilleur oeil un VO manager qui leur demande de créer tous les jours des nouveaux comptes/groupe Unix. Eric: L'information concernant les groupes/rôles sont simplement ajoutés dans le proxy de l'utilisateur. 5) Rapport hebdomadaire de la GDA sur le site web CIC (Osman) -------------------------------------------------- - Nouveauté : implication des sites - Agenda prévisionnel : béta-test pour le ROC français à partir du 14/10, puis en production le 21/10 * Objectifs: impliquer un peu plus les sites dans le rapport hebdomadaire de la GDA, avoir un meilleur retour sur les incidents, les défaillances des SFTs, etc. * Mise en place (Osman): Dans un premier temps, le principe serait de créer un rapport par RC tous les vendredi matins, qui fournirait une vue sur les erreurs SFTs du site durant la semaine. Les sites admins auraient donc le vendredi pour remplir le formulaire de leur site, et le ROC le lundi matin pour valider le tout. Dans la rubrique RC, vous aurez donc une rubrique rapport. Le planning prévisionnel est: - Utiliser le ROC Français comme testbed à partir du 14/10 - Si tout est OK, étendre à tout EGEE dès le 21/10 Pour ceux qui ne connaissent pas le site: https://cic.in2p3.fr/. Un certificat valide est requis. Il y a des vues par type d'acteur, dont les sites. * Discussions: Pierre: Les SFTs prennent un rôle central dans la gestion de l'exploitation de la grille LCG/EGEE. De plus en plus d'outils se reposent sur leurs résultats, comme par exemple, le filtrage (par VO) afin de supprimer automatiquement des sites qui ne passeraient pas les SFTs. Il nous apparaît donc important de nous munir des outils nécessaires pour avoir un retour sur le (dys-)fonctionnement des SFTs. Les informations apportés dans les rapports de la GDA sont stockées dans une BD au CC, et nous pourrons donc, moyennant quelques statistiques, et donc chiffres à l'appui, mettre l'accent sur les problèmes dont souffrent les SFTs. Personnellement, tous les lundi, j'ai 2h à consacrer à ce rapport, et donc à apporter des explications aux échecs des SFTs de la semaine pour l'ensemble des sites français. Je ne dispose donc ni du temps nécessaire, ni de toutes les informations nécessaires pour expliquer ou invalider les résultats de toutes les SFTs. Dans ces conditions, il est évident qu'il est préférable de prendre à la source les informations, c'est-à-dire les sites. Pierrick: Les SFTs montrent très souvent des erreurs qui apparaissent et disparaissent d'elles-même sans aucune intervention du site admin. De plus nombre d'entre elles apparaissent à des horaires (ex. la nuit) qui ne correspondent pas à ceux des site admins, et comme elles ont disparu ensuite et qu'elles ne sont pas reproductibles, il est difficile de savoir ce qui s'est réellement passé. D'autant plus, que bien souvent les causes d'échec des SFTs ne sont pas réellement liées au site lui-même (cf. discussion du moment sur la liste de diffusion de SA1-Fr pour s'en convaincre). Pierre/Rolf: Nous sommes tous conscients des limites actuelles du système. Mais l'idée est de renseigner ce qui est renseignable, et d'utiliser le champs sur la pertinence d'une SFT pour indiquer si on considère non-pertinent le résultat de la SFT (non-relevant) ou incompréhensible (unknown) dans les autres cas. Puisqu'on garde l'historique, on dispose d'un outil sérieux pour évaluer au fur et à mesure les SFTs. 6) Réunions -------- - passées ******* * Réunion CIC-on-duty le 26 septembre au RAL http://agenda.cern.ch/fullAgenda.php?ida=a051454 * Operations Workshop le 27 au 29 septembre au RAL http://agenda.cern.ch/fullAgenda.php?ida=a054670 VO Boxes et * All ROC Managers' meeting le 30 septembre au RAL http://agenda.cern.ch/fullAgenda.php?ida=a051455 Procédure pour la négociation des ressources des VOs avec SA1 : OAG. * Téléconf CIC managers, le 23 septembre et le 4 octobre Annulé car Nick Thacray http://agenda.cern.ch/fullAgenda.php?ida=a053584 * Les GDA du 3 octobre http://agenda.cern.ch/displayLevel.php?fid=258 * Téléconf ROC managers, le 4 octobre http://agenda.cern.ch/fullAgenda.php?ida=a053585 Pas eu lieu. - à venir ******* * Téléconf ROC managers, le 18 octobre http://agenda.cern.ch/fullAgenda.php?ida=a053725 * Téléconf CIC managers, le 19 octobre http://agenda.cern.ch/fullAgenda.php?ida=a053586 * 4ième Conférence EGEE, Pise, du 24 au 28 Octobre http://agenda.cern.ch/fullAgenda.php?ida=a051099 7) Divers ------ * Fête de la science : démo d'applications grille ? A l'occasion de la fête de la science, le stand de l'IN2P3 à Lyon présentera la grille de calcul. L'idée est de faire des démos d'application qui soient accessibles au grand public. S'il y a parmi vous des personnes qui peuvent proposer une démo d'application gridifiée qui correspond au public, nous sommes intéressés. La fête de la science aura lieu du 13 au 16 Octobre. Prochaine visio: le 18 Octobre. Fin : 15:00