Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)
Description
Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.
    • 16:00 16:25
      Incidents et problèmes des VOs (CC, sites français, autres sites) 25m
      Sujets Stockage: ------------------- Sujets Exploitation: ------------------------ Jobs lents de CMS Sujets Support: ------------------- CMS: ==== * Probleme avec dCache. Farida fera le point durant la reunion. Atlas: ====== * Jobs Atlas: - ATLAS a lance une campagne de reprocessing le 23 decembre (!! eh oui). Pour info, pour cette campagne, les jobs tirent les donnees de dCache et pas de HPSS. Nous n'avons pas note de bloquage pendant les vacances, ou le flot de jobs restait a un petit niveau (~600 jobs running). Nous avons toutefois note que les jobs demandent beaucoup de memoire (ces jobs travaillent sur des vraies donnees du detecteur qui ne reflettent pas les vraies donnees de detecteur en mode de collision du LHC). La memoire monte jusqu'a plus de 2.88 GB, le maximum de tolerance de BQS pour les jobs de ATLAS. 2.9 GB est en principe OK pour absorber les jobs de ATLAS, ce n'est pas BQS qui est mal configure, mais plutot les jobs de ATLAS. Ces problemes de memoire ont en particulier crees des cores sur les worker nodes. Nous sommes en contact avec Bernard Chambon pour cela. Comme tous les jobs de ATLAS sont "les memes", nous avons aussi eu des problemes de charge : nous avons augmente le nombre de jobs en execution hier vers 13h00. D'ou (je suppose) l'apparition des problemes de charge. - dcache : un fichier necessaire a tous les jobs (qui donnent des donnes pour les calibration) a ete accede un tres grand nombre de fois, ce qui a surcharge le pool hebergeant ce fichier. Lionel a fait 15 repliques a la main pour palier le probleme. Question : est-ce qu'il y a eu un probleme dans le mecanisme de replication automatique de ce fichier ? - release ATLAS : la release utilisee pour le reprocessing a ete installe le samedi 20 decembre et n'a pas ete replique (le mecanisme de replique automatique n'est pas mis en place encore et personne n'a averti afsmaster de cette installation). Aujourd'hui un grand nombre de jobs ATLAS tournait et le serveur AFS servant cette release a ete surcharge. Xavier est en train de faire un copie RO et la replication. Probleme compris et en passe d'etre resolu. * Disparition de fichiers dans dCache juste avant l'arret de Noel. Atlas ne connait pas la raison de la perte de ces fichiers. Cela montre la necessite de faire un scan de tous les fihciers dans dCache pour voir lesquels ont disparu et essayer d'en comprendre la raison. AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
    • 16:25 16:35
      Charge et événements prévisibles pour la semaine à venir 10m
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
      Orateur: Tous
    • 16:35 16:40
      Nouvelles des équipes du CC 5m
      Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvel arrivant Marcos Lins à partir du 15/1/2009 (équipe Développement) Nouvelles des embauches
      Orateur: Un membre de chaque équipe
    • 16:40 16:45
      break 5m
    • 16:45 16:55
      Etat des projets Grille 10m
      - EGEE (Pierre) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
    • 16:55 17:00
      Nouvelles des coopérations 5m
    • 17:00 17:05
      Affaires administratives 5m
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
    • 17:05 17:10
      Divers 5m