Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)
Description
Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.
    • 16:00 16:30
      Incidents et problèmes des VOs (CC, sites français, autres sites) 30m
      Sujets Exploitation+Stockage: ---------------------------------- - La MAJ BQS des workers SL5 en version 6.6 s'est bien passé. Reste a faire sur SL4 (attention pas du 28 au 29/10 car atlas a un challenge pour l'analyse T2). - mauvaise conf sur CE cclcgceli07 -> lhcb a eu 8000 jobs en queue! - perte de données sur une bande T10K bloqué dans un lecteur en mai 2008 et pas vu a ce moment-la. Envoyer la liste des fichiers perdus au support pour prévenir les utilisateurs. Interventions prévues dans les prochaines semaines : * passage de 3 CE vers SL5 et reconfiguration des CE 07 et 08. * changement des MachineMight des workers le 4/11. * voir avec les dcachemasters pour changement de version le 9/11 -> mettre les downtimes sur tous les SE concernés (et les CE?) * passage en production de SL5 -> 1/2 journée de blocage des fermes (le 16 ou 17/11) Sujets Support: ------------------- _ATLAS_ : *********- Installation AFS SL4 : l'installation automatique des releases du software se fait maintenant d'une manière automatique. Le repeuplement de la nouvelle zone avec les releases s'achève et nous allons diriger tous les utilisateurs et tous les jobs vers cette nouvelle zone. *********- Installation AFS SL5: Actuellement, il n'y a toujours pas de software pour pouvoir tourner sur la plateforme SL5. Il faut créer une nouvelle zone pour les releases SL5 et le plus compliqué est le nommage de cette nouvelle zone. Une solution proposée vendredi serai l'ajout d'une zone /afs/in2p3.fr/sftgroup/atlassl5. Ceci entraine la modification de scripts système. En cours .... *******- Utilisation des ressources CPU: depuis la fin de semaine dernière, les jobs reviennent enfin vers le CC. Il y a saturation des queues et sous utilisation des ressources Atlas à cause de l'impossibilité de tourner sur la plateforme SL5. ******* -Utilisation de xrootd par les jobs d'analyse 3 Thors xrootd ont été configués avec la nouvelle configuration qui améliore les performances pour les jobs d'obtenir leurs données: . 2 disques systèmes en miroir, . prefetch désactivé, . ZFS recordsize à 16K, . Zpool construit sur 9 x ( 4 + P ) + S . JRE 1.6 installées en local. Ces 3 thors ont été installés le 26 Octobre aprè midi. Le repeuplement de ce nouvel espace se fera directement par la demande des jobs eux mêmes. Des tests continuent (Catherine) pour: -tester une configuration de thors incluant du SSD -tester une nouvelle agrégation des données de ATlas en plus gros blocs. _CMS_ : SAM test: ######### CE-cms-mc: Jobs failure due to gridftp issue: number of available gridftp was saturated. Issue seen on 20, 22th and 23th October. The issue was fixed by adding 3 pools, in which each pool allows 30 more gridftp connections CE-sft-job: Maybe a temporary issue on the CE08 Error: - Got a job held event, reason: Globus error 37: the provided RSL 'queue' parameter is invalid - Job got an error while in the CondorG queue. Status Reason: hit job retry count (0) Destination: cclcgceli08.in2p3.fr:2119/jobmanager-bqs-long Submitted: Sat Oct 24 04:39:40 2009 CEST _LHCb_ : 0) Bons résultats des tests d'accès via gsidcap Pour les détails voir : http://cctools.in2p3.fr/elog/support-lhcb/52 1) Une partie des jobs lhcb se fait tuer par memory exceeded, car ils arrivent dans la class A, alors que dans le jdl on demande MaxCPUTime = 100000. Investigations en cours. _ALICE_ : - toujours sans production - RAS pour utilisateurs - desormais les jobs arrivant sont tous diriges vers des workers SL5 - nous souhaitons la transition de la vobox vers SL5/glite3.2 aussitot que possible Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
    • 16:30 16:35
      Charge et événements prévisibles pour la semaine à venir 5m
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
      Orateur: Tous
    • 16:35 16:40
      Nouvelles des équipes du CC 5m
      Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
      Orateur: Un membre de chaque équipe
    • 16:40 16:45
      break 5m
    • 16:45 16:55
      Etat des projets Grille 10m
      - EGEE (Rolf) - EGI-DS (Rolf) - EGI-Inspire - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) - GRIDOPS (Hélène) et projets en préparation, le cas échéant.
    • 16:55 17:00
      Formation et dissémination 5m
      Formations et actions de dissémination passées, en cours, à prévoir. Workshop Grille Régionale Rhône Alpes (Yonny)
      Orateur: Virginie, tous
    • 17:00 17:05
      Nouvelles des coopérations 5m
      - Prague - CS / CILOE - EELA
    • 17:05 17:20
      Préparations transition ROC Fr --> NGI Fr 15m
      Orateur: Rolf
    • 17:20 17:25
      Affaires administratives 5m
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
    • 17:25 17:30
      Divers 5m