Réunion jointe Opération + AT Grille
mardi 9 février 2010 -
16:00
lundi 8 février 2010
mardi 9 février 2010
16:00
Etat des projets Grille
Etat des projets Grille
16:00 - 16:10
Room: 322
- EGEE (Hélène) - EGI-Inspire - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
16:10
Nouvelles des coopérations
Nouvelles des coopérations
16:10 - 16:15
Room: 322
- Prague - EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
16:15
Formation et dissémination
-
Virginie, tous
Formation et dissémination
Virginie, tous
16:15 - 16:20
Room: 322
Formations et actions de dissémination passées, en cours, à prévoir.
16:20
Préparations transition ROC Fr --> NGI Fr
-
Rolf
Préparations transition ROC Fr --> NGI Fr
Rolf
16:20 - 16:35
Room: 322
- Site web France Grilles (Virginie) - Plan d'organisation des Opérations (Rolf)
16:35
Affaires administratives
Affaires administratives
16:35 - 16:40
Room: 322
- Missions et absences dans la semaine à venir - Conférences / workshops annoncés
16:40
break
break
16:40 - 16:45
Room: 322
16:45
Incidents et problèmes des VOs (CC, sites français, autres sites)
-
Tous
Incidents et problèmes des VOs (CC, sites français, autres sites)
Tous
16:45 - 17:15
Room: 322
Sujets Exploitation+Stockage: ---------------------------------- Mercredi 03/02 -------------- * blocage de la ferme de 9h à 14h30 pour changement des serveurs DB. Le redemarrage des démons bqsd sur les workers a été très fastidieux. Au redémarrage OnlinePeriod mise à 1 jour car nous avons ~100000 jobs ended par jour soit +50% * synchronisation de l'horloge sur ccacsls3 - arrêt du service pendant ~20mn. Jeudi 04/02 ----------- * vu un problème NIS pour les workers dans le sous réseau 168. qstop sur les machines (blades), ajout un serveur supplémentaire et remise en prod des machines. Mais le problème persiste. Vendredi 04/02 -------------- * suit du problème NIS : Les maps NIS de ccyp-168-02 étaient fausses, la machine ayant démarré sans se mettre a jour. Synchronisation faite par PYF, ensuite plus aucunes erreurs. * blocage du SRM de 8h30 a 11h20 (heure de redémarrage du SRM). TOujours le meme probleme non compris. * blocage de la ferme anastasie pendant ~8mn pour mettre un index supplémentaire sur une base -> insertion des jobs plus rapide -> qsub plus rapide. * augmentation du MaxSimultaneousSpawn à 400 puis à 500 pour essayer de remplir la ferme. * constatation qu'atlas a 68% de jobs qui consomment moins de 30s de cpu reel. Mais au support atlas et Rolf en parle au WLCG meeting. * suppression de machines dans la conf de BQS. Ces machines avaient ete mises dans l'état UNINITILIZED fin novembre, mais lors d'un arrêt elles étaient passées TERMINATED (modification dans la base). Ceci faussait la publication de puissance du CC. * sondes Xrootd en erreurs (timeout). JYN a redemarré les instances "generales" du service et c'est redevenu normal. Sujets Support: ------------------- Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
17:15
Charge et événements prévisibles pour la semaine à venir
-
Tous
Charge et événements prévisibles pour la semaine à venir
Tous
17:15 - 17:20
Room: 322
Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
17:20
Nouvelles des équipes du CC
-
Un membre de chaque équipe
Nouvelles des équipes du CC
Un membre de chaque équipe
17:20 - 17:25
Room: 322
Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
17:25
Divers
Divers
17:25 - 17:30
Room: 322