Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)
Description
Réunion en deux parties: 1. AT Grille Participants: ceux de la réunion AT Grille habituelle. 2. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle.
Comptes-rendus
    • 1
      Etat des projets Grille
      - EGEE (Hélène) - EGI-Inspire - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
    • 2
      Nouvelles des coopérations
      - Prague - EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
    • 3
      Formation et dissémination
      Formations et actions de dissémination passées, en cours, à prévoir.
      Orateur: Virginie, tous
    • 4
      Préparations transition ROC Fr --> NGI Fr
      - Site web France Grilles (Virginie) - Plan d'organisation des Opérations (Rolf)
      Orateur: Rolf
    • 5
      Affaires administratives
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
    • 16:40
      break
    • 6
      Incidents et problèmes des VOs (CC, sites français, autres sites)
      Sujets Exploitation+Stockage: ---------------------------------- Mercredi 03/02 -------------- * blocage de la ferme de 9h à 14h30 pour changement des serveurs DB. Le redemarrage des démons bqsd sur les workers a été très fastidieux. Au redémarrage OnlinePeriod mise à 1 jour car nous avons ~100000 jobs ended par jour soit +50% * synchronisation de l'horloge sur ccacsls3 - arrêt du service pendant ~20mn. Jeudi 04/02 ----------- * vu un problème NIS pour les workers dans le sous réseau 168. qstop sur les machines (blades), ajout un serveur supplémentaire et remise en prod des machines. Mais le problème persiste. Vendredi 04/02 -------------- * suit du problème NIS : Les maps NIS de ccyp-168-02 étaient fausses, la machine ayant démarré sans se mettre a jour. Synchronisation faite par PYF, ensuite plus aucunes erreurs. * blocage du SRM de 8h30 a 11h20 (heure de redémarrage du SRM). TOujours le meme probleme non compris. * blocage de la ferme anastasie pendant ~8mn pour mettre un index supplémentaire sur une base -> insertion des jobs plus rapide -> qsub plus rapide. * augmentation du MaxSimultaneousSpawn à 400 puis à 500 pour essayer de remplir la ferme. * constatation qu'atlas a 68% de jobs qui consomment moins de 30s de cpu reel. Mais au support atlas et Rolf en parle au WLCG meeting. * suppression de machines dans la conf de BQS. Ces machines avaient ete mises dans l'état UNINITILIZED fin novembre, mais lors d'un arrêt elles étaient passées TERMINATED (modification dans la base). Ceci faussait la publication de puissance du CC. * sondes Xrootd en erreurs (timeout). JYN a redemarré les instances "generales" du service et c'est redevenu normal. Sujets Support: ------------------- Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
    • 7
      Charge et événements prévisibles pour la semaine à venir
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
      Orateur: Tous
    • 8
      Nouvelles des équipes du CC
      Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
      Orateur: Un membre de chaque équipe
    • 9
      Divers