Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

helene Cordier (CNRS/IN2P3)
Description
Réunion en deux parties: 1. AT Grille Participants: ceux de la réunion AT Grille habituelle. 2. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle.
EDMS minutes
Réunion jointe Opération + AT Grille (13 Jul 2010) Chaired by: Cordier, Hélène Participants : Jacques Garnier; Pierre Girard; Rolf Rumler; Hélène Cordier; Suzanne Poulat ================== Etat des projets Grille ================== - EGI-Inspire : Hélène 26 Juillet 14:00 -- EGI Operations Meeting - Jacques/ Pierre/ Interopérabilité. EGI.eu Technical Forum : peu de budget pour voyager - demander à DF. - IdG (Rolf, Virginie, Yonny) : EQUIPEX le 15 Juin le 15 Sept, sonde les sites pour une réponse indiciduelle ou collective. [HC] demander à Vincent si EDMS peut être utilisé pour stocket les documents du grand emprunt. - Grille régionale( Yonny) : comment avoir des nouvelles de façon plus régulières [HC] - ENS/DIET (Sylvain) : voir Frédéric Suter/Hélène Cordier LIAISONS (grille, VOs). - GRILLES PROD (Sylvain) ================== Nouvelles des coopérations ================== RAS ================== Formation et dissémination ================== Formation utilisateurs 18, 19 et 20 octobre, au CC Formation administrateurs - installation d'un site gLite typique 26, 27 et 28 octobre, au CC Ces formations seront prochainement annoncées par mail à opération et sur le site web formation.france-grilles.fr Je suis à la recherche de formateurs !!! Merci aux personnes dispo à ces dates et intéressées de revenir vers Virginie Dutruel. ================== Affaires administratives ================== RR absent le 21 Juillet; RR en workshop le 15 et 16 Juillet avec Holger PG absent le 15 matin et le 19 juillet DB absent le 15 et 16 Juillet. HC absent le 15 après-midi et le 16 après-midi. ================== Incidents et problèmes des VOs (CC, sites français, autres sites) ================== - Exercice Atlas : ras - FCR Alice : sonde ok, Alice n'utilise pas les WMS. Aucun impact fonctionnel; impact sur les rel/avail. - Arrêt du 21 Septembre devrait durer plus longtemps que 24h et doit être placé sur le planning LCG - GR prévenue. Réunion de coordination prévue la semaine prochaine. Support LHCB : -Le problème des timeouts de la software area est réapparu: Le résultat des investigations avec les sysunix est le suivant: à cause du plantage des wns, les sysunix ont mis en place un système de nettoyage des I/O pour éviter que les machines s'écroulent. Pendant ce temps tous les autres processus n'avancent pas et ils reprennent une fois cette opération terminée. Il n'y a pas d'autres solutions pour le moment -> voir avec lhcb si il est possible d'augmenter le timeout ou bien de détecter que les timeouts système. Alerte AFS sur le toolkit lhcb en fin matinée, due aux tests que j'ai lancés pour le debug du problème de la software area. == pb récurrent -- GGUS ticket du 08/07 - 59880 == - Une petite fraction des jobs lhcb se terminent de façon abrupte, comme si ils étaient tués par BQS ou par le système. Dans BQS et dans les logs des wns on ne voit rien de spécial-> Problème pas encore compris. == Pb à voir avec Suzanne et Luisa ==> ALICE - R.Vernet activite de calcul tres soutenue dans cette periode mais nouvelle tendance: certains jobs durent trop longtemps (>100 000 s en real cpu time) et se font tuer par BQS (status2=KILLGTL) la fraction de ces jobs varie de jour en jour (de qq % a 20-30% parfois) [DaBo]/ Resoumission de la VO en classe J ?ou autre adaptation de l'exploitation à faire. ==> ATLAS - E Cogneras * test de prestaging réalisé par ATLAS du 6 au 9 juillet : aucun soucis à signaler *Pb de transfert entre CC et Beijing dans le sens Chine vers Lyon : transfert interrompu avant la fin. Yvan fait appel aux expert chinois pour investiguer le problème en commun Nouveau problème: pas de timeout gridftp. DaBo teste avec Yvan les serveurs gridftp. PG préconise le même workaround qu'avec BNL dans un premier temps. *Pb de transfert BNL Lyon : la source identifié à ce jour pour cette lenteur de connexion semble etre imputable à Solaris. Un test de transfert réalisé avec SL5 donne tes vitesses de transfert 4 à 8 fois supérieur qu'avec Solaris. Le workaround installé par Pierre - gridftp sur serveur Linux - est efficace, mais le réel problème reste entier puisque les tests gridftp vs Solaris n'ont pas été notés. A repasser. ==> CMS - F.Fassi - There was a timeout issue in accesing the CRLs (Certificate Revocation List) file stored in the afs volume at CC-IN2P3. This impacted all the imports transfer to CCIN2P3 on 9th July. The issue was fixed and the transfer was recovred. SRM server was down on 11th July which impacted the transfer in debug instance, and the SAM test jobs. The server was rebooted on 12th morning. La procédure de redémarrage au CC-IN2P3 du serveur SRM n'est pas automatique (?), renseigner le logbook plus regulièrement. Le lien n'est pas automatique entre CRLs et Transfers, David B. va demander si c'est un problème d'ordre dans la maj. [HC] MAJ de la recette à demander, pas de mises à jour le vendredi. - DataOps has decided to allow MC production at Tier-1 sites. For this reason a new role, /cms/Role=t1production must be created for the usual data operations, while the /cms/Role=production role will be reserved for MC production. Nothing changes for the /cms/Role=t1access role. [SP] Coordonner les shares entre exploitation et syslinux pour le jeudi 15 Juillet. ================== Charge et événements prévisibles pour la semaine à venir ================== RAS ================== Nouvelles des équipes du CC ================== 2 nouvelle personnes au 01/08/10 : Christelle grid admin + syslinux pour remplacer Micael ================== Divers ================== [SP] Guillaume Philippon fait remonter le pb du détail des messages Nagios qui ne sont pas suffisamment détaillées. Jacques précise que My EGEE est activé dans la Nagios box française : il approrte des informations qui ne sont pas forcement fiables - la liste des noeuds d'un site n'est pas complète, les pages My EGEE ne s'affichent - le working group du monitoring ne le recommande pas, c'est un outil en Alpha version. HC fera une estimation lundi pour confirmer la réunion AT grille
Il y a un compte-rendu associé à cet événement. Les afficher.