Réunion jointe Opération + AT Grille

Name: Réunion jointe Opération + AT Grille
Start: 2009-04-21T16:00:00+02:00
End: 2009-04-21T17:30:00+02:00
Location: IN2P3

mardi 21 avr. 2009, 16:00 → 17:30 Europe/Paris

322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)

Description

Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.

- 16:00 → 16:30
  
  Incidents et problèmes des VOs (CC, sites français, autres sites) 30m
  
  Sujets Exploitation+Stockage: ---------------------------------- Un serveur de données xrootd est devenu passif suite à des requêtes en mode dccp bloquées à cause de l'indisponibilité de Dcache Jeudi 9 avril. L'utilisateur atlas099 qui tentait de rapatrier des fichiers depuis ce serveurs via xrdcp voyait tous ses jobs échouer. Le kill des process dccp a suffit a remettre le service UP. Les jobs d'atlas se sont ensuite bien déroulés. La contribution "Stockage" est arrivée après la réunion, la voilà: - Lundi 20 mars : Un incident robotique a fortement perturbé le fonctionnement de HPSS (incident traité par l'exploitation). Les montages bande étaient blocké, mais les accès disques était encore possible. La situation s'est débloqué vers 23h. - MIGRATION HPSS 6.2: Un date a été arrêté pour la migration de HPSS 5.1 vers HPSS 6.2. Cette migration se fera du 1er au 4 juin 2009. Cette date tombant pile au milieu des exercices CRC 09 (aka STEP 09) des expériences LHC, nous attendons une confirmation de leur part. Fabio a contacté les personnes responsables à ce sujet. Cette migration sera un opération assez lourde. Dès la semaine précédente, l'accès a HPSS sera réduit. Le système sera complètement inaccessible pendant 4 jours (1/06 -> 4/06). La remise en production sera très progressive. La totalité des caches disques étant purgés, chaque accès de fichier nécessitera un montage bande. Sujets Support: ------------------- Atlas: ****** - installation sur cclcgatlas04 (vobox) de Apache, Condor, mysqlclient. Reste à installer Panda avant de rendre cclcgatlas03 aux sysadmins. - fin du reprocessing des données cosmiques de Atlas. Le reprocessing s'est étalée entre le 1er et le 9 avril et s'est bien déroulé. Les 67 TB de données avaient été stockées sur disk pour ne pas stresser HPSS. - Probleme avec l'installation d'Athena toujours en cours (http://cctools2/elog/problemes-VO/60). Alice: ****** - Alice moved to new vobox (cclcgalice02) and everything works. The old VO-box (cclcgalice01.in2p3.fr) can be recycled. The switchover was done without draining the running jobs. LHCb: ***** - Pb avec dCache resolu (srm-bring-on-line) et la solution a ete validee par LHCb le 15 avril (http://cctools2/elog/problemes-VO/62). CMS: **** No major issue to report, just the following ones concerning the reprocessing jobs: * Slow jobs: some jobs have not managed to access to their inputs data, even if the files are online, and in same cases replicated in several pools. The list of the files are sent to the dcache master. * Some jobs faced the following error while reprocessing their data: Server error message for [2]: "Unexpected Exception : java.lang.InterruptedException: IO Job was killed" (errno 33). !!! LibDCAP Debug Level modified by error recovery procedure !!! * Since Friday 17th, several jobs failed due to the issue [*]: - After some investigation with the help of Nadia and Susanne, it seems that the issue is not due to our infrastructure installed on the WNs, but to either the data structure or the CMSSW itself. - The prod people are not happy with this explanation and they still consider the issue open. They will perform some test to be sure 100% that the issue is due to us.. So let's wait for hearing from the result of this test to take anther consideration to solve the issue..if any .... [*] Python/ShREEK/MonitorThread.py", line 159, in run File "/usr/local/lib/python2.4/threading.py", line 348, in wait File "/usr/local/lib/python2.4/threading.py", line 227, in wait exceptions.ValueError: list.remove(x): x not in list Unhandled exception in thread started by Error in sys.excepthook: Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
  
  Orateur: Tous
  
  Problèmes récurrents des VOs
- 16:30 → 16:35
  
  Charge et événements prévisibles pour la semaine à venir 5m
  
  Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
  
  Orateur: Tous
- 16:35 → 16:40
  
  Nouvelles des équipes du CC 5m
  
  Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
  
  Orateur: Un membre de chaque équipe
- 16:40 → 16:45
  
  break 5m
- 16:45 → 16:55
  
  Etat des projets Grille 10m
  
  - EGEE (Rolf) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
- 16:55 → 17:00
  
  Nouvelles des coopérations 5m
- 17:00 → 17:05
  
  Affaires administratives 5m
  
  - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
- 17:05 → 17:10
  
  Divers 5m