Réunion jointe Opération + AT Grille

Name: Réunion jointe Opération + AT Grille
Start: 2009-01-20T16:00:00+01:00
End: 2009-01-20T17:30:00+01:00
Location: IN2P3

mardi 20 janv. 2009, 16:00 → 17:30 Europe/Paris

322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)

Description

Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.

- 1
  
  Accueil de Marcos LINS
  
  Orateur: Rolf
- 2
  
  Incidents et problèmes des VOs (CC, sites français, autres sites)
  
  Sujets Stockage: ------------------- - HPSS: RAS Sujets Exploitation: ------------------------ - le DB serveur esclave de BQS est tombé en panne mardi dernier. Elle a ete remplacée provisoirement jeudi par la machine de "spare" du serveur BQS. La machine devrait revenir en prod demain ou mercredi, ca engendrera un blocage de la ferme de ~1h dans la matinée. - problème dcache (PNFS) vendredi vers 11h30. Rétabli vers 18h le meme jour. - il y a 4 racks de workers hors prod, ces machines seront deplacées en salle machine et remises en prod dans la semaine. Un arrêt dCache est programmé pour le 26/01 (mise a jour système de serveurs). Sujets Support: ------------------- CMS: ==== * SAM test: Jobs with the production role stay more than 24 hours in the queue and then are aborted for proxy expiration: https://lcg-sam.cern.ch:8443/sam/sam.py?funct=TestResult&nodename=cclcgceli03.in2p3.fr&vo=CMS&testname=CE-cms-prod&testtimestamp=1232205548 This was reported in the Facility operation meeting. My explanation is the following: this is could happened if those SAM jobs lend to CCIN2P3 when the queues were full.. But, I guess this symptom needs to be followed for finding out in which condition this problem happens. * PNFSManager This is just to let you known the PNFSManager pb occurred on Friday 16th was affected many reprocessing jobs and transfers for site commissioning. Atlas: ====== * jobs lents : depuis une semaine, ATLAS a eu 2 series de jobs lents, qui ont ete du : - a un probleme dcache (vendredi 16 Janvier); - a un utilisateur grille qui a lance ~600 jobs sur la ferme, chacun faisait un gmake attaquant la meme release semble-t-il (nous n'avons pas les outils pour verifier 600 jobs simultanement comme les sys-admin par exemple), ce qui a surcharge afs08. Les jobs se sont evacues d'eux-meme. Nous avons tout-de-meme notifie l'utilisateur en question de cette mauvais utilisation. Des outils ATLAS existent pour faire un executable unique et envoyer 600 jobs avec. * transferts massifs T1-T1 : la semaine derniere (debut le mercredi 14 janvier) ATLAS a mene un test de transferts de petits fichiers (en tres grand nombre) de T1 a T1 (10 millions de fichiers repartis entre 10 T1, pour une duree de 10 jours au plus). Lyon a eu une bonne efficacite mais le nombre de fichier qui a ete transfere est tres en dessous de ce que nous aurions attendu (en comparant aux autres T1s). Les canaux FTS sont pourtant pleins. Cela reste a investiguer. * cclcgceli02 moins reactif : hier lundi 19 janvier Pierre Girard a installe un nouveau BQS manager sur 2 CEs (1 du T1 et un du T2), notamment sur cclcgceli02 (T1 atlas) qui faisaient moins rentrer de jobs sur BQS que cclcgceli01 (T1 atlas), alors que ces 2 CEs sont traites de facons absolument identiques en amont (i.e ils recoivent le meme nombre de jobs pilotes). Cette manipulation a eu un effet tres positif (augmentation tres nette du nombre de jobs) mais nous attendons de voir ce qu'il se passe sur qq jours pour conclure definitivement [Pierre Girard peut sans doute completer]. Alice: ====== * Nothing to report (no jobs for Alice at CC). LHCb: ===== * Nothing to report (no mail received from LHCb). AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
  
  Orateur: Tous
- 3
  
  Charge et événements prévisibles pour la semaine à venir
  
  Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
  
  Orateur: Tous
- 4
  
  Nouvelles des équipes du CC
  
  Sujets par équipe, avec un impact potentiel sur l'exploitation. - AT Grille: besoins Symod Nouvelles des embauches
  
  Orateur: Un membre de chaque équipe
- 16:40
  
  break
- 5
  
  Etat des projets Grille
  
  - EGEE (Pierre) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
- 6
  
  Nouvelles des coopérations
  
  - EELA et participation à la conférence EELA-2 (Cyril)
- 7
  
  Affaires administratives
  
  - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
- 8
  
  Divers