Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

helene Cordier (CNRS/IN2P3)
Description
Réunion en deux parties: 1. AT Grille Participants: ceux de la réunion AT Grille habituelle. 2. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle.
EDMS minutes
Réunion jointe Opération + AT Grille (13 Jul 2010) Chaired by: Cordier, Hélène Participants : Jacques Garnier; Pierre Girard; Rolf Rumler; Hélène Cordier; Suzanne Poulat ================== Etat des projets Grille ================== - EGI-Inspire : Hélène 26 Juillet 14:00 -- EGI Operations Meeting - Jacques/ Pierre/ Interopérabilité. EGI.eu Technical Forum : peu de budget pour voyager - demander à DF. - IdG (Rolf, Virginie, Yonny) : EQUIPEX le 15 Juin le 15 Sept, sonde les sites pour une réponse indiciduelle ou collective. [HC] demander à Vincent si EDMS peut être utilisé pour stocket les documents du grand emprunt. - Grille régionale( Yonny) : comment avoir des nouvelles de façon plus régulières [HC] - ENS/DIET (Sylvain) : voir Frédéric Suter/Hélène Cordier LIAISONS (grille, VOs). - GRILLES PROD (Sylvain) ================== Nouvelles des coopérations ================== RAS ================== Formation et dissémination ================== Formation utilisateurs 18, 19 et 20 octobre, au CC Formation administrateurs - installation d'un site gLite typique 26, 27 et 28 octobre, au CC Ces formations seront prochainement annoncées par mail à opération et sur le site web formation.france-grilles.fr Je suis à la recherche de formateurs !!! Merci aux personnes dispo à ces dates et intéressées de revenir vers Virginie Dutruel. ================== Affaires administratives ================== RR absent le 21 Juillet; RR en workshop le 15 et 16 Juillet avec Holger PG absent le 15 matin et le 19 juillet DB absent le 15 et 16 Juillet. HC absent le 15 après-midi et le 16 après-midi. ================== Incidents et problèmes des VOs (CC, sites français, autres sites) ================== - Exercice Atlas : ras - FCR Alice : sonde ok, Alice n'utilise pas les WMS. Aucun impact fonctionnel; impact sur les rel/avail. - Arrêt du 21 Septembre devrait durer plus longtemps que 24h et doit être placé sur le planning LCG - GR prévenue. Réunion de coordination prévue la semaine prochaine. Support LHCB : -Le problème des timeouts de la software area est réapparu: Le résultat des investigations avec les sysunix est le suivant: à cause du plantage des wns, les sysunix ont mis en place un système de nettoyage des I/O pour éviter que les machines s'écroulent. Pendant ce temps tous les autres processus n'avancent pas et ils reprennent une fois cette opération terminée. Il n'y a pas d'autres solutions pour le moment -> voir avec lhcb si il est possible d'augmenter le timeout ou bien de détecter que les timeouts système. Alerte AFS sur le toolkit lhcb en fin matinée, due aux tests que j'ai lancés pour le debug du problème de la software area. == pb récurrent -- GGUS ticket du 08/07 - 59880 == - Une petite fraction des jobs lhcb se terminent de façon abrupte, comme si ils étaient tués par BQS ou par le système. Dans BQS et dans les logs des wns on ne voit rien de spécial-> Problème pas encore compris. == Pb à voir avec Suzanne et Luisa ==> ALICE - R.Vernet activite de calcul tres soutenue dans cette periode mais nouvelle tendance: certains jobs durent trop longtemps (>100 000 s en real cpu time) et se font tuer par BQS (status2=KILLGTL) la fraction de ces jobs varie de jour en jour (de qq % a 20-30% parfois) [DaBo]/ Resoumission de la VO en classe J ?ou autre adaptation de l'exploitation à faire. ==> ATLAS - E Cogneras * test de prestaging réalisé par ATLAS du 6 au 9 juillet : aucun soucis à signaler *Pb de transfert entre CC et Beijing dans le sens Chine vers Lyon : transfert interrompu avant la fin. Yvan fait appel aux expert chinois pour investiguer le problème en commun Nouveau problème: pas de timeout gridftp. DaBo teste avec Yvan les serveurs gridftp. PG préconise le même workaround qu'avec BNL dans un premier temps. *Pb de transfert BNL Lyon : la source identifié à ce jour pour cette lenteur de connexion semble etre imputable à Solaris. Un test de transfert réalisé avec SL5 donne tes vitesses de transfert 4 à 8 fois supérieur qu'avec Solaris. Le workaround installé par Pierre - gridftp sur serveur Linux - est efficace, mais le réel problème reste entier puisque les tests gridftp vs Solaris n'ont pas été notés. A repasser. ==> CMS - F.Fassi - There was a timeout issue in accesing the CRLs (Certificate Revocation List) file stored in the afs volume at CC-IN2P3. This impacted all the imports transfer to CCIN2P3 on 9th July. The issue was fixed and the transfer was recovred. SRM server was down on 11th July which impacted the transfer in debug instance, and the SAM test jobs. The server was rebooted on 12th morning. La procédure de redémarrage au CC-IN2P3 du serveur SRM n'est pas automatique (?), renseigner le logbook plus regulièrement. Le lien n'est pas automatique entre CRLs et Transfers, David B. va demander si c'est un problème d'ordre dans la maj. [HC] MAJ de la recette à demander, pas de mises à jour le vendredi. - DataOps has decided to allow MC production at Tier-1 sites. For this reason a new role, /cms/Role=t1production must be created for the usual data operations, while the /cms/Role=production role will be reserved for MC production. Nothing changes for the /cms/Role=t1access role. [SP] Coordonner les shares entre exploitation et syslinux pour le jeudi 15 Juillet. ================== Charge et événements prévisibles pour la semaine à venir ================== RAS ================== Nouvelles des équipes du CC ================== 2 nouvelle personnes au 01/08/10 : Christelle grid admin + syslinux pour remplacer Micael ================== Divers ================== [SP] Guillaume Philippon fait remonter le pb du détail des messages Nagios qui ne sont pas suffisamment détaillées. Jacques précise que My EGEE est activé dans la Nagios box française : il approrte des informations qui ne sont pas forcement fiables - la liste des noeuds d'un site n'est pas complète, les pages My EGEE ne s'affichent - le working group du monitoring ne le recommande pas, c'est un outil en Alpha version. HC fera une estimation lundi pour confirmer la réunion AT grille
Il y a un compte-rendu associé à cet événement. Les afficher.
    • 1
      Etat des projets Grille
      - EGI-Inspire ( Hélène) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) - ENS/DIET ( Sylvain) - GRILLES PROD/GRILLES RECHERCHE (Sylvain) et projets en préparation, le cas échéant.
      - EGI-Inspire : Hélène 26 Juillet 14:00 -- EGI Operations Meeting - Jacques/ Pierre/ Interopérabilité. EGI.eu Technical Forum : peu de budget pour voyager - demander à DF. - IdG (Rolf, Virginie, Yonny) : EQUIPEX le 15 Juin le 15 Sept, sonde les sites pour une réponse indiciduelle ou collective. [HC] demander à Vincent si EDMS peut être utilisé pour stocket les documents du grand emprunt. - Grille régionale( Yonny) : comment avoir des nouvelles de façon plus régulières [HC] - ENS/DIET (Sylvain) : voir Frédéric Suter/Hélène Cordier LIAISONS (grille, VOs). - GRILLES PROD (Sylvain)
    • 2
      Nouvelles des coopérations
      - EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
      RAS
    • 3
      Formation et dissémination
      Formations et actions de dissémination passées, en cours, à prévoir.
      Orateur: Virginie, tous
      Formation utilisateurs 18, 19 et 20 octobre, au CC Formation administrateurs - installation d'un site gLite typique 26, 27 et 28 octobre, au CC Ces formations seront prochainement annoncées par mail à opération et sur le site web formation.france-grilles.fr Je suis à la recherche de formateurs !!! Merci aux personnes dispo à ces dates et intéressées de revenir vers Virginie Dutruel.
    • 4
      Préparations transition ROC Fr --> NGI Fr - Asupprimer cette rubrique - A remplacer par la rubrique logistique
      - Site web France Grilles (Virginie) -- à continuer - Plan d'organisation des Opérations (Rolf) -- HC va évaluer les besoins du groupe OPTIC. Réunion qui rassemble les opérateurs - Biomed et les LCG - PG -- Atlas est similaire à OPS, LHCb, cms (?), Alice (?); valider avec FC.
      Orateur: Rolf
    • 5
      Affaires administratives
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
      RR absent le 21 Juillet; RR en workshop le 15 et 16 Juillet avec Holger PG absent le 15 matin et le 19 juillet DB absent le 15 et 16 Juillet. HC absent le 15 après-midi et le 16 après-midi.
    • 16:40
      break
    • 6
      Incidents et problèmes des VOs (CC, sites français, autres sites)
      Sujets Exploitation+Stockage: ---------------------------------- ** Lundi 5/07 Sortie du rack SL4 pour migrationen SL5 Les sylinux travaillent sur un rack (mis hors prod sr demande) pour mise à jour sur les composants suivants - le kernel - la version d'openAFS - la version de GPFS - les paramètres du noyau car visiblement la solution nouveau kernel+paramétrage du noyau a prouvé sa stabilité (aucune machine crashée en plus de 3 semaines de test, sur un rack). La mise à jour se fera progressivement, au fur et à mesure des plantages des machines 15H00 : Incident de clim au CINES 15h10 : La procédure d'arrêt d'urgence des workers s'est déclenchée automatiquement. Tous les racks sont été ensuite sortis avec takeoutWorker Pbm FCR ALICE persistants la sonde est en erreur depuis 3 jours. Dmde d'explications en cours. ** Mardi 06/07 ATLAS les jobs dans le cadre de l´exercice de prestaging de ATLAS commencent a etre lances. Il y a timout ábord un petit nombre de jobs qui tournent, juste pour tester la machinerie. Le gros sera lance apres. L'évolution en onction du temps du nombre de jobs de prestaging qui tourne ici (histogramme vert) : http://gridinfo.triumf.ca/panglia/graph-generator/?SITE=FR&TASK=reprocessing&TIME=day&SIZE=large Mise hors prod du rack SL4 ** Mercredi 07/07 Relance ALICE par rapport aux tests FCR qui plantent depuis longtemps Possibilité d'arrêter 3 racks dell_lcp00 - 01 -02 en vue de réduire la consommation en clim pour un week end trés chaud validée en CD. Toutes les VOs LHC sont d'accord pour cette réduction de puissance quise justifie par le fait que ces derniéres semaines les workers sont sous-utilisés. Racks stoppés. ** Jeudi 08/08 vladimir.kulikovskiy@ge.infn.it a des jobs trop courts. Mail + réponse Sorry for that. Actually I was quite confused - when I do local tests, job runs during 40sec (when data file was downloaded before from SRB). But when it launches through batch, it takes much more time (maybe downloading from SRB eats all the time). I'll be more careful. > Hello, > > Yo have submitted about 7000 jobs these last 2 days. All of them are failling used about 40 sec UI. > > They seems to ask for files from SRB without specifying the resource SRB at submission: > > Root directory set to ANTRS_ROOT = /afs/in2p3.fr/home/throng/antares > 22 You are using the prod version of the SRB utilities. > 23 24 ANTARES environment : host = ccwl9176 system = Linux Préparation de l'arrêt du 21/09 https://cctools.in2p3.fr/operations/wiki/doku.php?id=arrets:arret21092010 ** Vendredi 09/09 Les jobs de lsst ne rentrent pas. Ils ont consommé leur quota CPU ++. Je leur ai demandé de faire passé une demande de CPU supll par ticket. Takeout effectué à cause de : scratch full - lenteur. Machine(s) concernée(s) : ccwl1181 Les racks suite à une forte activité de ATLAS ont été remis en prod suite à confirmation par sysadmin qu'il n'y a pas de risque à mettre en péril la SM. FCR alice - réponse "France and hence CC is in Nagios, but not yet fully in production, but in validation, so no problem" ces tests on donc du sens, mais etant en validation, le mieux est que l'exploitation n'en tienne pas compte jusqu'a nouvel ordre. Sujets Support: ------------------- Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
      - Exercice Atlas : ras - FCR Alice : sonde ok, Alice n'utilise pas les WMS. Aucun impact fonctionnel; impact sur les rel/avail. - Arrêt du 21 Septembre devrait durer plus longtemps que 24h et doit être placé sur le planning LCG - GR prévenue. Réunion de coordination prévue la semaine prochaine. Support LHCB : -Le problème des timeouts de la software area est réapparu: Le résultat des investigations avec les sysunix est le suivant: à cause du plantage des wns, les sysunix ont mis en place un système de nettoyage des I/O pour éviter que les machines s'écroulent. Pendant ce temps tous les autres processus n'avancent pas et ils reprennent une fois cette opération terminée. Il n'y a pas d'autres solutions pour le moment -> voir avec lhcb si il est possible d'augmenter le timeout ou bien de détecter que les timeouts système. Alerte AFS sur le toolkit lhcb en fin matinée, due aux tests que j'ai lancés pour le debug du problème de la software area. == pb récurrent -- GGUS ticket du 08/07 - 59880 == - Une petite fraction des jobs lhcb se terminent de façon abrupte, comme si ils étaient tués par BQS ou par le système. Dans BQS et dans les logs des wns on ne voit rien de spécial-> Problème pas encore compris. == Pb à voir avec Suzanne et Luisa ==> ALICE - R.Vernet activite de calcul tres soutenue dans cette periode mais nouvelle tendance: certains jobs durent trop longtemps (>100 000 s en real cpu time) et se font tuer par BQS (status2=KILLGTL) la fraction de ces jobs varie de jour en jour (de qq % a 20-30% parfois) [DaBo]/ Resoumission de la VO en classe J ?ou autre adaptation de l'exploitation à faire. ==> ATLAS - E Cogneras * test de prestaging réalisé par ATLAS du 6 au 9 juillet : aucun soucis à signaler *Pb de transfert entre CC et Beijing dans le sens Chine vers Lyon : transfert interrompu avant la fin. Yvan fait appel aux expert chinois pour investiguer le problème en commun Nouveau problème: pas de timeout gridftp. DaBo teste avec Yvan les serveurs gridftp. PG préconise le même workaround qu'avec BNL dans un premier temps. *Pb de transfert BNL Lyon : la source identifié à ce jour pour cette lenteur de connexion semble etre imputable à Solaris. Un test de transfert réalisé avec SL5 donne tes vitesses de transfert 4 à 8 fois supérieur qu'avec Solaris. Le workaround installé par Pierre - gridftp sur serveur Linux - est efficace, mais le réel problème reste entier puisque les tests gridftp vs Solaris n'ont pas été notés. A repasser. ==> CMS - F.Fassi - There was a timeout issue in accesing the CRLs (Certificate Revocation List) file stored in the afs volume at CC-IN2P3. This impacted all the imports transfer to CCIN2P3 on 9th July. The issue was fixed and the transfer was recovred. SRM server was down on 11th July which impacted the transfer in debug instance, and the SAM test jobs. The server was rebooted on 12th morning. La procédure de redémarrage au CC-IN2P3 du serveur SRM n'est pas automatique (?), renseigner le logbook plus regulièrement. Le lien n'est pas automatique entre CRLs et Transfers, David B. va demander si c'est un problème d'ordre dans la maj. [HC] MAJ de la recette à demander, pas de mises à jour le vendredi. - DataOps has decided to allow MC production at Tier-1 sites. For this reason a new role, /cms/Role=t1production must be created for the usual data operations, while the /cms/Role=production role will be reserved for MC production. Nothing changes for the /cms/Role=t1access role. [SP] Coordonner les shares entre exploitation et syslinux pour le jeudi 15 Juillet.
    • 7
      Charge et événements prévisibles pour la semaine à venir
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
      Orateur: Tous
      RAS
    • 8
      Nouvelles des équipes du CC
      Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
      Orateur: Un membre de chaque équipe
      2 nouvelle personnes au 01/08/10 : Christelle grid admin + syslinux pour remplacer Micael
    • 9
      Divers
      [SP] Guillaume Philippon fait remonter le pb du détail des messages Nagios qui ne sont pas suffisamment détaillées. Jacques précise que My EGEE est activé dans la Nagios box française : il approrte des informations qui ne sont pas forcement fiables - la liste des noeuds d'un site n'est pas complète, les pages My EGEE ne s'affichent - le working group du monitoring ne le recommande pas, c'est un outil en Alpha version. HC fera une estimation lundi pour confirmer la réunion AT grille