visioconférence du groupe SA1-FR d'EGEE ======================================= Date : Mardi 15 mars 2005, 14h Présidé par : Rolf Rumler (CC-IN2P3) Secrétaire : Pierre Girard (CC-IN2P3) ***************** * Ordre du jour * ***************** 1) Approbation du compte-rendu de la dernière visioconférence (tous) - http://agenda.in2p3.fr//askArchive.php?base=agenda&categ=a055&id=a055/minutes 2) Tour des sites - Introduction: * etat du déploiement de LCG2.3.1 (sécurité) * annonce de LCG2.4.0 pour début avril - CC-IN2P3 - CPPM Marseille - LPC Clermont - LAL Orsay - CEA Saclay - CGG - IPSL - LAPP - Ecole Centrale Paris - CINES 3) Tour des VOs - Biomed - D0 - EGEODE - ESR - Planck 4) Nouvelle CA Française (Sophie, 20') 5) Point meeting EGEE France à Marseille (Sophie, Rolf, Pierre) - http://agenda.in2p3.fr//fullAgenda.php?ida=a0510. 6) Point formation à Clermont-Ferrand (Pierre-Louis, Sylvie) 7) Réunions - passées * Téléconf GDA des 07/03 et 14/03 (Rolf/Pierre) * Téléconf ROC du 15 mars (Rolf) * Téléconf CIC du 09/03 (Annulée) * EGEE All-activity meeting le 10 et 11 mars au CERN (Hélène) http://agenda.cern.ch/fullAgenda.php?ida=a045526 * ARDA workshop le 7 et 8 mars au CERN, http://agenda.cern.ch/fullAgenda.php?ida=a051177 et http://cern.ch/arda - à venir * EGEE ROC managers, le 17 et 18 mars à Lyon http://agenda.cern.ch/fullAgenda.php?ida=a045580 * Téléconf CIC du 16/03 * LCG GDB meeting, le 16 mars à Lyon 8) Divers *********** * Réunion * *********** 0) Liste de présence / site : ------------------------ - Absents annoncés : - CC.IN2P3.FR (5) Gilles Mathieu Helene Cordier Jonathan Schaeffer Pierre Girard Rolf Rumler - CGG.COM (3) Ahmed Beriache Gael Youinou Gerard Gadaud - CINES (2) Adeline Eynard Nicole Audiffren - CLERMONT.IN2P3.FR (3) Emmanuel Medernach Jean-Claude Chevaleyre Sylvie Dhur - CPPM.IN2P3.FR (3) Edith Knoops Eric Fede Sophie Nicoud - DAPNIA.CEA.FR (4) Christine Leroy Michel Winkler Pierre-François Honoré Pierrick Micout - IBCP.FR (1) Vincent Lefort - IPSL / IPGP (1) David Weissenbach - LAL.IN2P3.FR (2) Cedric Duprilot Daniel Jouvenot - LAPP.IN2P3.FR (2) Frederique Chollet Le Flour Muriel Gougerot Total: 26 personnes 1) Approbation du compte-rendu de la dernière visioconférence (tous) ---------------------------------------------------------- - http://agenda.in2p3.fr//askArchive.php?base=agenda&categ=a055&id=a055/minutes Approuvé 2) Tour des sites -------------- - Introduction: ************ * etat du déploiement de LCG2.3.1 (sécurité) Le problème de cette version est qu'elle mélange patch de sécurité et corrections fonctionnelles. Le principe de faire une version qu'avec les patchs de sécurité est en cours de discussion au CERN. * annonce de LCG2.4.0 pour début avril - CC-IN2P3 ******** Panne de courant interne (non EDF): un onduleur a été assassiné avec un tourne-vis dans la salle machine par un intervenant extérieur. La coupure a été brutale, le système de secours ayant été disjoncté aussi. Les services n'ayant pu être arrêté proprement, il a fallu plusieurs heures pour redémarrer les fonctions vitales du CC, et presque 24h pour revenir à un état normal du site de grille. Les services RLS/RMC pour Biomed et serveurs des VOs Egeode et Biomed ont été redémarrés en priorité, 5/6 heures après le retour du courant. Samedi, il y a eu problème de climatisation, le site a été fermé pendant une demi-journée, car des racks de WNs ont été arrêtés le temps de réparer. L'incident n'a pas eu d'incidence sur les services de grille. Pas encore en LCG2.3.1. - CPPM Marseille ************** Rien de spécial. Sauf un problème NFS sur certains jobs, ceux d'Atlas. Il semble que ce soit un problème au niveau des machines et non pas un problème de middleware. Pas encore en LCG2.3.1. - LPC Clermont ************ Comme au CC, le site a aussi connu des problèmes électriques et de climatisation. Evolution récente: le site complet est en 2.3.1. A suivre : le changement de nom, l'utilisation d'un BDII comme GIIS, le passage en SL3, le test de BQS, etc. - LAL Orsay ********* Le site est LCG2.3.1. Test d'une nouvelle version de PBS. Quelques problèmes avec cette nouvelle version qui ont provoqué l'échec des "Job submission". L'installation MPI est consolidée: tous les CPUs disponibles. il y avait un problème car les jobs demandaient plus de CPUS que de noeuds disponibles, ce pb a été résolu. Il y a une solution pour upgrader EDG_WL_SCRATCH. Voir avec CAL. - CEA Saclay ********** LCG2.3.1 en profitant d'un upgrade du hardware (ajout de RAM - 2 Go - sur les différents noeuds du site) - CGG *** Ne compte pas effectuer le passage à LCG2.3.1, mais préfère attendre la sortie de LCG2.4.0. Le problème du CE a été résolu en mettant une machine plus puissante. Lien sur l'installation d'un BDII utilisé comme GIIS d'un site: http://goc.grid.sinica.edu.tw/gocwiki/Using_the_BDII_as_a_site_GIIS Q(Gael): A la CGG, il y a eu beaucoup de retour négatif sur LCG2.3.1 dans les conversations avec les autres. Le CC infirme-t-il celà ? R(Pierre): A cause des problèmes de la semaine dernière, nous n'avons pas encore pu commencer l'installation de cette version, nous ne pouvons donc rien affirmer, ni infirmer. Il est vrai qu'il y a des mécontents sur LCG-ROLLOUT suite à l'installation de LCG2.3.1, mais c'est vrai aussi après chaque upgrade, une upgrade n'étant de toute façon pas anodine pour un site. R(des sites en LCG2.3.1): l'upgrade LCG2.3.1 n'a pas posé de problèmes particuliers. - IPSL **** Pas grand chose de nouveau. Comme pour CGG, la question se pose entre upgrader en LCG2.3.1 ou attendre LCG2.4.0. La mécanique de rénovation des CRLs mise en place via un proxy a entrainé quelques problèmes au niveau R-GMA, qui sont résolus depuis. Sinon, David a remarqué que LCFGng génère une crontab pour Tank&Sparks. Du coup, comme plusieurs méga de logs sont générés sur les noeuds, le cron a été modifié pour réduire les logs. Ahmed: c'est un système qui vérifie si les softwares sont bien installés. Q(Gael): Qu'en est-il des pbs MPI chez SCAI (Fraunhofer Institute of Algorithms and Scientific Computing) ? R(David): pb non résolu aux dernières nouvelles R(Daniel-LAL): le MPI fonctionne. R(Eric): Oui, mais au LAL, il y a une version modifiée de Torque qui devrait être présente dans la prochaine version. Or, il faut savoir que dans l'ancienne version, il y a un problème dans l'adressage des CPUs. R(Gael): C'est une information pertinente pour ce problème. David se chargera de la diffuser auprès de SCAI. - LAPP **** 2.3.1 au niveau de l'UI. Le reste devrait suivre d'ici la fin de la semaine. - Ecole Centrale Paris ******************** Absent - CINES ***** Pas mal de retard et peu de temps ces derniers temps pour travailler sur l'installation du site. Du coup, l'installation s'effectuera directement avec la LCG2.3.1. 3) Tour des VOs ------------ - Biomed ****** Tout va bien. Le CEA propose maintenant des ressources à la VO Biomed. - D0 ** - EGEODE ****** La transition SL3/RH7.3 n'est pas considérée comme une priorité. Il n'y a pas de problème de compatibilité pour les applications, c'est juste un problème de temps et de priorités en ce moment. Ce sera donc étudié plus tard à l'occasion d'une upgrade. Toujours un manque de membres pour la VO. - ESR *** Rien de nouveau. - Planck ****** 4) Nouvelle CA Française (Sophie, 20') --------------------- - http://agenda.in2p3.fr//fullAgenda.php?ida=a056 Penser à changer les certificats serveurs. Début 2006, il y aura un harakiri de datagrid-fr. 5) Point meeting EGEE France à Marseille (Sophie, Rolf, Pierre) ------------------------------------- - http://agenda.in2p3.fr//fullAgenda.php?ida=a0510. le 24 mars, réunion à Marseille. L'agenda est accessible depuis le site de marseille et l'agenda de Lyon (EGEE/Général). URL: http://marianne.in2p3.fr/egee/france/reunion/mrs-24-03.html Lieu: Campus de la délégation régionale La journée commence à 9:20 par un café, et devrait se finir vers 17:30. Après, il y a une réunion du commité EGEE France. Pour SA1, Pierre présentera le ROC Français, il propose que chaque site lui fasse un transparent. Il fera un mail à la liste EGEE-SA1-Fr pour relancer la proposition. 6) Point formation à Clermont-Ferrand (Pierre-Louis, Sylvie) ---------------------------------- Rolf: Il y a eu un petit malentendu concernant les intervenants. Mais c'est réglé. Sylvie: A ce propos, merci Sophie qui a finalement accepté. Tout les intervenants sont maintenant d'accord. Si certains le souhaitent, il y a encore la possibilité de modifier l'agenda de +/-5mn pour les présentations. Le cours est plein: 21 Pour tout problème concernant la formation, n'hésitez pas à contacter Sylvie. 7) Réunions -------- - passées ******* * Téléconf GDA des 07/03 et 14/03 (Rolf/Pierre) Le CIC on-duty est le CC cette semaine. Changement côté outil de suivi d'incident: Savannah -> GGUS. Le CC et le CERN assure la transition. Dans 2 semaines, ça devrait être fini... 1 mois pour drainer l'ensemble des tickets de Savannah. * Téléconf ROC du 15 mars (Annulée) Cause: ARM-3 à Lyon * Téléconf CIC du 09/03 (Annulée) Cause: ARM-3 à Lyon * EGEE All-activity meeting le 10 et 11 mars au CERN (Hélène) http://agenda.cern.ch/fullAgenda.php?ida=a045526 Parmi le spoints importants: - Réponse aux questions des reviewers. Chaque chef d'activité va ajouter des points au technical annex. - Les négociations pour EGEE-2 sont lancées: Concentration sur les activités NA4, SA1, JRA1. Les autres activités seront des related projects... dont le dossier doit être soumis avant la fin du mois. - Retour sur l'approbation d'EGEE-2 vers septembre/octobre. * ARDA workshop le 7 et 8 mars au CERN, http://agenda.cern.ch/fullAgenda.php?ida=a051177 et http://cern.ch/arda gLite, l'architecture logicielle. - à venir ******* * EGEE ROC managers, le 17 et 18 mars à Lyon http://agenda.cern.ch/fullAgenda.php?ida=a045580 * Téléconf CIC du 16/03 * LCG GDB meeting, le 16 mars à Lyon 8) Divers ------ Fin: 15:30