Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)
Description
Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.
    • 16:00 16:05
      Accueil de Marcos LINS 5m
      Orateur: Rolf
    • 16:05 16:30
      Incidents et problèmes des VOs (CC, sites français, autres sites) 25m
      Sujets Stockage: ------------------- - HPSS: RAS Sujets Exploitation: ------------------------ - le DB serveur esclave de BQS est tombé en panne mardi dernier. Elle a ete remplacée provisoirement jeudi par la machine de "spare" du serveur BQS. La machine devrait revenir en prod demain ou mercredi, ca engendrera un blocage de la ferme de ~1h dans la matinée. - problème dcache (PNFS) vendredi vers 11h30. Rétabli vers 18h le meme jour. - il y a 4 racks de workers hors prod, ces machines seront deplacées en salle machine et remises en prod dans la semaine. Un arrêt dCache est programmé pour le 26/01 (mise a jour système de serveurs). Sujets Support: ------------------- CMS: ==== * SAM test: Jobs with the production role stay more than 24 hours in the queue and then are aborted for proxy expiration: https://lcg-sam.cern.ch:8443/sam/sam.py?funct=TestResult&nodename=cclcgceli03.in2p3.fr&vo=CMS&testname=CE-cms-prod&testtimestamp=1232205548 This was reported in the Facility operation meeting. My explanation is the following: this is could happened if those SAM jobs lend to CCIN2P3 when the queues were full.. But, I guess this symptom needs to be followed for finding out in which condition this problem happens. * PNFSManager This is just to let you known the PNFSManager pb occurred on Friday 16th was affected many reprocessing jobs and transfers for site commissioning. Atlas: ====== * jobs lents : depuis une semaine, ATLAS a eu 2 series de jobs lents, qui ont ete du : - a un probleme dcache (vendredi 16 Janvier); - a un utilisateur grille qui a lance ~600 jobs sur la ferme, chacun faisait un gmake attaquant la meme release semble-t-il (nous n'avons pas les outils pour verifier 600 jobs simultanement comme les sys-admin par exemple), ce qui a surcharge afs08. Les jobs se sont evacues d'eux-meme. Nous avons tout-de-meme notifie l'utilisateur en question de cette mauvais utilisation. Des outils ATLAS existent pour faire un executable unique et envoyer 600 jobs avec. * transferts massifs T1-T1 : la semaine derniere (debut le mercredi 14 janvier) ATLAS a mene un test de transferts de petits fichiers (en tres grand nombre) de T1 a T1 (10 millions de fichiers repartis entre 10 T1, pour une duree de 10 jours au plus). Lyon a eu une bonne efficacite mais le nombre de fichier qui a ete transfere est tres en dessous de ce que nous aurions attendu (en comparant aux autres T1s). Les canaux FTS sont pourtant pleins. Cela reste a investiguer. * cclcgceli02 moins reactif : hier lundi 19 janvier Pierre Girard a installe un nouveau BQS manager sur 2 CEs (1 du T1 et un du T2), notamment sur cclcgceli02 (T1 atlas) qui faisaient moins rentrer de jobs sur BQS que cclcgceli01 (T1 atlas), alors que ces 2 CEs sont traites de facons absolument identiques en amont (i.e ils recoivent le meme nombre de jobs pilotes). Cette manipulation a eu un effet tres positif (augmentation tres nette du nombre de jobs) mais nous attendons de voir ce qu'il se passe sur qq jours pour conclure definitivement [Pierre Girard peut sans doute completer]. Alice: ====== * Nothing to report (no jobs for Alice at CC). LHCb: ===== * Nothing to report (no mail received from LHCb). AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
    • 16:30 16:35
      Charge et événements prévisibles pour la semaine à venir 5m
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
      Orateur: Tous
    • 16:35 16:40
      Nouvelles des équipes du CC 5m
      Sujets par équipe, avec un impact potentiel sur l'exploitation. - AT Grille: besoins Symod Nouvelles des embauches
      Orateur: Un membre de chaque équipe
    • 16:40 16:45
      break 5m
    • 16:45 16:55
      Etat des projets Grille 10m
      - EGEE (Pierre) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
    • 16:55 17:00
      Nouvelles des coopérations 5m
      - EELA et participation à la conférence EELA-2 (Cyril)
    • 17:00 17:05
      Affaires administratives 5m
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
    • 17:05 17:10
      Divers 5m