visioconférence du groupe SA1-FR d'EGEE ======================================= Date : Mardi 15 janvier 2008, 14h Présidé par: Pierre Girard Secrétaire: Pierre-Emmanuel Brinette Fonctionnement technique de la visioconférence: http://vacs.in2p3.fr/rms/guide.pdf Prochaine visioconférence : le mardi 29 janvier 2008 ***************** * Ordre du jour * ***************** 1) Approbation du compte-rendu de la dernière visioconférence (tous, 5') http://indico.in2p3.fr/materialDisplay.py?materialId=minutes&confId=551 2) Tour des sites (tous, 20') * Sujets particuliers : - Ticket GGUS: https://gus.fzk.de/ws/ticket_search.php?supportunit=ROC_France&status=open&radiotf=1&timeframe=no * Points ROC - CE-sft-posix est proposé pour devenir un test critique * description: http://goc.grid.sinica.edu.tw/gocwiki/SE-sft-posix * tous les sites français sont déjà ok. - Certains utilisateurs de Biomed ont posé des problèmes sur plusieurs sites. * Cf. points IN2P3-CC et CGG-Veritas * Points IN2P3-CC - Un utilisateur de biomed a été banni car ses jobs créaient + de 2 millions de petits fichiers sur les WNs. Informé, Yannick Legré a préconisé de bannir l'utilisateur en attendant qu'il résolve son problème. C'est ce qui a été fait au CC. * Points CGG-Veritas - Question de J-B F.: Plusieurs saturations du RB (rb1.egee.fr.cgg.com) par les jobs BIOMED (/var à 100%). Du coup, les jobs d'EGEODE ne passent plus pendant ce temps. Au lieu de reconfigurer tout le site sans la VO BIOMED, je voudrais juste retirer notre RB de la listes des RB disponibles pour les jobs BIOMED. Comment fait-on cela ? Savez-vous comment ces utilisateurs de BIOMED arrivent à soumettre des milliers de jobs par jour et pourquoi ? 3) Fonctionnement de SA1-Fr (Tous, 20') * Planification de visio à thèmes - Présentation sur le CE CREAM par Sylvain Reynaud Date prévue: visio du mardi 11 mars. * Journée "Monitoring" - Date à fixer - Lieu et agenda à fixer * Formation "Utilisateur/Administrateur" - Candidats à cette formation ? - Lieu: CCIN2P3 - Date à fixer * Dossiers en reste: - Outil collaboratif pour SA1-Fr - Testbed pour des sites/noeuds hors production * solution pour les noeuds de test des sites ? * Vo vo.rocfr.in2p3.fr * LFC, RB, Site BDII 4) Tour des VOs (5') Pas de points annoncés. 5) Compte-Rendu de LCG France T2/T3 (Frédérique, 5') Retour sur le dernier GDB: http://indico.cern.ch/conferenceDisplay.py?confId=8508 6) Réunions/Conférences (5') - passées * LCG-France T2-T3 Technical meeting, du 20 décembre 2007 http://indico.in2p3.fr/conferenceDisplay.py?confId=412 * LCG GDB, du 9 janvier 2008 au CERN http://indico.cern.ch/conferenceDisplay.py?confId=20225 * WLCG-OSG-EGEE Operations meeting, du 14 janvier 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23804 * ROC managers phone conference, du 15 janvier 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23752 - à venir * ARM-11 et COD-15, du 5 au 8 février à Lyon http://indico.cern.ch/conferenceDisplay.py?confId=20786 http://indico.cern.ch/conferenceDisplay.py?confId=21867 * WLCG-OSG-EGEE Operations meetings, du 21 et 28 janvier 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23805 http://indico.cern.ch/conferenceDisplay.py?confId=23806 * LCG-France T2-T3 Technical meeting, du 18 janvier 2008 http://indico.in2p3.fr/conferenceDisplay.py?confId=413 7) Divers (5') * Prochaine visio: le 29 janvier 2008. ##################################################################### *********** * Réunion * *********** 0) Liste de présence / site : ------------------------ - Absents annoncés : - CC.IN2P3.FR (2) Pierre Girard Pierre-Emmanuel Brinette - CGG.COM (1) Jean-Bernard Favreau - CLERMONT.IN2P3.FR (2) Emmanuel Medernach Jean-Claude Chevaleyre - CPPM.IN2P3.FR (2) Edith Knoops Thierry Mouthuy - DAPNIA.CEA.FR (2) Frédéric Schaer Pierrick Micout - IBCP.FR (0) - IPNL Lyon (3) Denis Pugnere Guillaume Baulieu Yoan Giraud - IPSL / IPGP (1) David Weissenbach - IRES.IN2P3.FR (1) Yannick Patois - LAL.IN2P3.FR (1) Michel Jouvin - LAPP.IN2P3.FR (4) Eric Fede Frederique Chollet Le Flour Muriel Gougerot Sabine Elles - LPNHE.IN2P3.FR (0) - LPSC.IN2P3.FR(0) - SUBATECH.IN2P3.FR (1) Jean-Michel Barbet Jérôme Pinot - UREC/CA GRID-FR (0) Total: 21 personnes 1) Approbation du compte-rendu de la dernière visioconférence (tous, 5') ---------------------------------------------------------- http://indico.in2p3.fr/materialDisplay.py?materialId=minutes&confId=551 Pas de commentaires. Compte rendu approuvé. 2) Tour des sites (tous, 20') -------------- * Sujets particuliers : ******************* - Ticket GGUS: https://gus.fzk.de/ws/ticket_search.php?supportunit=ROC_France&status=open&radiotf=1&timeframe=no * Points ROC ********** - CE-sft-posix est proposé pour devenir un test critique * description: http://goc.grid.sinica.edu.tw/gocwiki/SE-sft-posix * tous les sites français sont déjà ok. * Teste la couche GFAL; Teste les protocoles des SE. - Certains utilisateurs de Biomed ont posé des problèmes sur plusieurs sites. * Cf. points IN2P3-CC et CGG-Veritas * Points IN2P3-CC *************** - Un utilisateur de biomed a été banni car ses jobs créaient + de 2 millions de petits fichiers sur les WNs. Informé, Yannick Legré a préconisé de bannir l'utilisateur en attendant qu'il résolve son problème. C'est ce qui a été fait au CC. * Points CGG-Veritas ****************** - Question de J-B F.: - Plusieurs saturations du RB (rb1.egee.fr.cgg.com) par les jobs BIOMED (/var à 100%). Du coup, les jobs d'EGEODE ne passent plus pendant ce temps. - Au lieu de reconfigurer tout le site sans la VO BIOMED, je voudrais juste retirer notre RB de la listes des RB disponibles pour les jobs BIOMED. Comment fait-on cela ? - Savez-vous comment ces utilisateurs de BIOMED arrivent à soumettre des milliers de jobs par jour et pourquoi ? * Jean-Bernard: Le problème est résolu en supprimant la VO biomed du RB. Les problèmes sont dus à plusieurs utilisateurs de Biomed. * Pierre: Pour bannir un utilisateur d'un CE, il suffit de rajouter son DN dans le fichier /opt/edg/etc/lcas/ban_users.db * Pierre: Est ce que tous les sites admins savent comment bannir un utilisateur ? * Pierre: Y a-t-il une liste de RB par VO ? Fred Schaer: Il n'y a pas de liste de RB officiel actuellement. Cependant la liste des RB est accessible par le système d'information (lcg-infosite). Michel : Il faudrait ajouter à la VO ID card les RB officiels. Michel : C'est peut être une coïncidence, mais des worker nodes ont plantés dus à des jobs ESR. Jean-Bernard: Pas de problèmes sur les WN. Lorsque Biomed soumet, plusieurs milliers de job arrivent en quelques heures (constaté au mois de décembre). Pierre : Comme d'autres VOs, ils utilisent certainement un exécuteur permettant de soumettre beaucoup de jobs courts simultanément. Ca peut expliquer les soumissions simultanées constatées. Pierre : Pour le pb du RB, il faudrat peut-être ajouter des quotas sur le /var au niveau des groupes UNIX, non ? Ca garantirait qu'une VO n'empêche pas les autres d'utiliser le RB. Fred : Eviter de mettre les job en /var, il faut créer un partition séparé. * Jean-Bernard: Le RB de la CGG sert principalement à garantir la rapidité d'exécution pour EGEODE. Pierre : S'il sert principalement à EGEODE, il n'y à rien qui empêche de le restreindre à cette VO. * Pierre : Suite à la GDA, proposition de Maria Dimou : Doit on suivre ce qui est indiqué sur les VO ID card, et comment informer les VOs que la configuration du site diverge avec ce qui apparaît dans la VO ID card. A partir des VO ID card. YAIM génèrerait la configuration en incluant le numéro de version de la VO ID card. Cette configuration serait testée par un test SAM. Les VO ont demandés à avoir un système pour vérifier que les sites mettent bien à jour la configuration du site en fonction des VO ID card. * Michel : Quattor va inclure un outil pour générer les configurations des VO à partir des VO ID card. Fred : Est-il pertinent que ce soit le numéro de version qui soit supervisé ? Pierre : Il vaudrait mieux que ces informations soient publiées par le système d'information plutôt que testé par des tests SAM test à la soumission. Michel : Le test SAM est une vérification grossière de 1er niveau pour informer que la configuration du site n'est pas à jour. Pierre : Le pb est que ces tests sont gérés par les Opérations et qu'il serait susceptible de devenir critiques. Cependant cette information devrait être publiées dans le système d'information. Michel : SAM sert aux sites et aux VOs, pour les sites, il permet de tester la disponibilité de ce dernier, pour les VOs ca permet de tester la configuration des sites. * Pierre : L'outil de Quattor permettant de générer la configuration des configurations à partir du VO ID card peut-il être intégré au CIC portal ? Michel : Ca ne devrait pas poser de problèmes, déjà vu en parti avec Gilles Mathieu. 3) Fonctionnement de SA1-Fr (Tous, 20') ------------------------ * Planification de visio à thèmes ******************************* - Présentation sur le CE CREAM par Sylvain Reynaud Date prévue: visio du mardi 11 mars. * Journée "Monitoring" ******************** - Date à fixer - Lieu et agenda à fixer Pierre : Peut être fixer la date le même jour que la formation "Utilisateur/Administrateur" si celle ci se passe au CC. Frédérique : Date fixé pour la "Journée Tier2/Tier3" le 20 mars éventuellement à l'APC (PARIS) pour faciliter l'accès aux Nantais. La journée monitoring pourrait donc être le 19 mars. Il serait être plus pertinent que cette présentation ait lieu après les journées RESINFO (27 mars). --> La date pourrait être fixée au jeudi 17 avril au CC conjointement à la journée "Journée Tier2/Tier3" plutôt que le 20 mars. * Formation "Utilisateur/Administrateur" ************************************** - Candidats à cette formation ? - Lieu: CCIN2P3 - Date à fixer Ce déroulerait au CC Peut être en mars avant les vacances de Pâques. Pierre: Si vous avez des administrateurs de sites intéressés par la grille, qu'ils sinscrivent rapidement, cela permettrait au CC de cibler les candidats. -> Prévoir de faire une présentation Quattor par des spécialiste de la région Rhone Alpes. * Autres dossiers *************** - Outil collaboratif pour SA1-Fr Rien de nouveau coté CC. - Testbed pour des sites/noeuds hors production * solution pour les noeuds de test des sites ? * Vo vo.rocfr.in2p3.fr * LFC, RB, Site BDII Pierre: Les sites voulant tester des nouveaux nœuds pourrait les inclure dans le site BDII de cette grille de tests ainsi de profiter de l'infrastructure déjà en place (Ressource Brocker, Catalogue LFC). Par ailleurs, le LPC serait intéressé par ce testbed pour faire des tests de sécurité. Pierre: Y a-t-il des personnes intéressées ? (...) 4) Tour des VOs (5') ------------ Pas de points annoncés. 5) Compte-Rendu de LCG France T2/T3 (Frédérique, 5') -------------------------------- Retour sur le dernier GDB: http://indico.cern.ch/conferenceDisplay.py?confId=20225 Frédérique: Dernier GDB (Grid Deployment Board): 9/01 * Point sur le Benchmarking Dans le cadre d'HEPIX : - Les SI2K sont obsolètes, des tests seront mis en place spécifiquement pour la physique des particules. - Mise en place d'un cluster dédié au Cern * Point sur le Data Management - Sur la façon de mettre en place les classes de stockage sur les Tier 1 (T1-D0) stocké sur bande. - Pour le LHC, c'est la majorité des données et il faut les 'stager' avant de les accéder. Il y a des divergences entre les différentes implémentations des SE. Problèmes technique pouvant être difficile à régler. * La creation d'un Working Node Working group. - Permettant de considérer les paramètres mémoire et disque de façon à faire un sélection ('matching') plus fine à la soumission jobs. - Fournir des exemples aux utilisateurs. - Orienté sur 3 axes : Déploiement, Développement et Utilisateur. - La notion de subcluster est à nouveau à l'étude. - Un nouveau composant permettant de publier les clusters plutôt que ca le soit par le CE lui même. Pierre : C'est une proposition qui risque d'être difficile à mettre en place rapidement. * Revue de GLEXEC : - Accepter les 'jobs pilot' (avec changement d'identité) si tous les sites sont d'accord avec l'implémentation. - Utilisera une version serveur du LCAS/LCMAPS * CCRC 08: Data Challenge des 4 VOs LHC, il y aura une grosse augmentation du trafic sur les Tier 1. 6) Réunions/Conférences (5') -------------------- - passées ******* * LCG-France T2-T3 Technical meeting, du 20 décembre 2007 http://indico.in2p3.fr/conferenceDisplay.py?confId=412 * LCG GDB, du 9 janvier 2008 au CERN http://indico.cern.ch/conferenceDisplay.py?confId=20225 * WLCG-OSG-EGEE Operations meeting, du 14 janvier 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23804 * ROC managers phone conference, du 15 janvier 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23752 - à venir ******* * ARM-11 et COD-15, du 5 au 8 février à Lyon http://indico.cern.ch/conferenceDisplay.py?confId=20786 http://indico.cern.ch/conferenceDisplay.py?confId=21867 * WLCG-OSG-EGEE Operations meetings, du 21 et 28 janvier 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23805 http://indico.cern.ch/conferenceDisplay.py?confId=23806 * LCG-France T2-T3 Technical meeting, du 18 janvier 2008 http://indico.in2p3.fr/conferenceDisplay.py?confId=413 * Début février : ROC manager et COD meeting à Lyon * 21 au 23 janvier : All activities meeting à Sophia. 7) Divers (5') ------ * Prochaine visio: le 29 janvier 2008. Fin: 15:15