Réunion jointe Opération + AT Grille
mardi 27 octobre 2009 -
16:00
lundi 26 octobre 2009
mardi 27 octobre 2009
16:00
Incidents et problèmes des VOs (CC, sites français, autres sites)
-
Tous
Incidents et problèmes des VOs (CC, sites français, autres sites)
Tous
16:00 - 16:30
Room: 322
Sujets Exploitation+Stockage: ---------------------------------- - La MAJ BQS des workers SL5 en version 6.6 s'est bien passé. Reste a faire sur SL4 (attention pas du 28 au 29/10 car atlas a un challenge pour l'analyse T2). - mauvaise conf sur CE cclcgceli07 -> lhcb a eu 8000 jobs en queue! - perte de données sur une bande T10K bloqué dans un lecteur en mai 2008 et pas vu a ce moment-la. Envoyer la liste des fichiers perdus au support pour prévenir les utilisateurs. Interventions prévues dans les prochaines semaines : * passage de 3 CE vers SL5 et reconfiguration des CE 07 et 08. * changement des MachineMight des workers le 4/11. * voir avec les dcachemasters pour changement de version le 9/11 -> mettre les downtimes sur tous les SE concernés (et les CE?) * passage en production de SL5 -> 1/2 journée de blocage des fermes (le 16 ou 17/11) Sujets Support: ------------------- _ATLAS_ : *********- Installation AFS SL4 : l'installation automatique des releases du software se fait maintenant d'une manière automatique. Le repeuplement de la nouvelle zone avec les releases s'achève et nous allons diriger tous les utilisateurs et tous les jobs vers cette nouvelle zone. *********- Installation AFS SL5: Actuellement, il n'y a toujours pas de software pour pouvoir tourner sur la plateforme SL5. Il faut créer une nouvelle zone pour les releases SL5 et le plus compliqué est le nommage de cette nouvelle zone. Une solution proposée vendredi serai l'ajout d'une zone /afs/in2p3.fr/sftgroup/atlassl5. Ceci entraine la modification de scripts système. En cours .... *******- Utilisation des ressources CPU: depuis la fin de semaine dernière, les jobs reviennent enfin vers le CC. Il y a saturation des queues et sous utilisation des ressources Atlas à cause de l'impossibilité de tourner sur la plateforme SL5. ******* -Utilisation de xrootd par les jobs d'analyse 3 Thors xrootd ont été configués avec la nouvelle configuration qui améliore les performances pour les jobs d'obtenir leurs données: . 2 disques systèmes en miroir, . prefetch désactivé, . ZFS recordsize à 16K, . Zpool construit sur 9 x ( 4 + P ) + S . JRE 1.6 installées en local. Ces 3 thors ont été installés le 26 Octobre aprè midi. Le repeuplement de ce nouvel espace se fera directement par la demande des jobs eux mêmes. Des tests continuent (Catherine) pour: -tester une configuration de thors incluant du SSD -tester une nouvelle agrégation des données de ATlas en plus gros blocs. _CMS_ : SAM test: ######### CE-cms-mc: Jobs failure due to gridftp issue: number of available gridftp was saturated. Issue seen on 20, 22th and 23th October. The issue was fixed by adding 3 pools, in which each pool allows 30 more gridftp connections CE-sft-job: Maybe a temporary issue on the CE08 Error: - Got a job held event, reason: Globus error 37: the provided RSL 'queue' parameter is invalid - Job got an error while in the CondorG queue. Status Reason: hit job retry count (0) Destination: cclcgceli08.in2p3.fr:2119/jobmanager-bqs-long Submitted: Sat Oct 24 04:39:40 2009 CEST _LHCb_ : 0) Bons résultats des tests d'accès via gsidcap Pour les détails voir : http://cctools.in2p3.fr/elog/support-lhcb/52 1) Une partie des jobs lhcb se fait tuer par memory exceeded, car ils arrivent dans la class A, alors que dans le jdl on demande MaxCPUTime = 100000. Investigations en cours. _ALICE_ : - toujours sans production - RAS pour utilisateurs - desormais les jobs arrivant sont tous diriges vers des workers SL5 - nous souhaitons la transition de la vobox vers SL5/glite3.2 aussitot que possible Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
16:30
Charge et événements prévisibles pour la semaine à venir
-
Tous
Charge et événements prévisibles pour la semaine à venir
Tous
16:30 - 16:35
Room: 322
Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
16:35
Nouvelles des équipes du CC
-
Un membre de chaque équipe
Nouvelles des équipes du CC
Un membre de chaque équipe
16:35 - 16:40
Room: 322
Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
16:40
break
break
16:40 - 16:45
Room: 322
16:45
Etat des projets Grille
Etat des projets Grille
16:45 - 16:55
Room: 322
- EGEE (Rolf) - EGI-DS (Rolf) - EGI-Inspire - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) - GRIDOPS (Hélène) et projets en préparation, le cas échéant.
16:55
Formation et dissémination
-
Virginie, tous
Formation et dissémination
Virginie, tous
16:55 - 17:00
Room: 322
Formations et actions de dissémination passées, en cours, à prévoir. Workshop Grille Régionale Rhône Alpes (Yonny)
17:00
Nouvelles des coopérations
Nouvelles des coopérations
17:00 - 17:05
Room: 322
- Prague - CS / CILOE - EELA
17:05
Préparations transition ROC Fr --> NGI Fr
-
Rolf
Préparations transition ROC Fr --> NGI Fr
Rolf
17:05 - 17:20
Room: 322
17:20
Affaires administratives
Affaires administratives
17:20 - 17:25
Room: 322
- Missions et absences dans la semaine à venir - Conférences / workshops annoncés
17:25
Divers
Divers
17:25 - 17:30
Room: 322