Réunion jointe Opération + AT Grille

Name: Réunion jointe Opération + AT Grille
Start: 2009-07-07T16:00:00+02:00
End: 2009-07-07T17:30:00+02:00
Location: IN2P3

mardi 7 juil. 2009, 16:00 → 17:30 Europe/Paris

322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)

Description

Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.

- 1
  
  Incidents et problèmes des VOs (CC, sites français, autres sites)
  
  Sujets Exploitation+Stockage: ---------------------------------- - très forte réduction de puissance de calcul lundi dernier (~50%) remise en production de quelques racks de workers lundi. Nous sommes actuellement a 61% de notre capacité totale. Le retour a la normale devrait se faire en fin de semaine ou début de semaine prochaine. - arrêt HPSS pour configuration mardi dernier, mais ça a du être déjà abordé. - problème de robotique ce weekend, mais transparents (ou presque) pour hpss. Il y a un changement de main, swap de 2 autres, blocage d'un lecteur, nettoyage de cellules de calibration de plusieurs élévateurs. Sujets Support: ------------------- Alice: ====== Atlas: ====== * 1-2 juillet: Blocage AFS: A la suite d'une nouvelle demande de release pour le software de Atlas, le volume a été mis en RW. Mais simultanément, beaucoup de jobs demandaient des fichiers sur ces volumes, ce qui a créé des surcharges et une impossibilité pour le package de release du software de créer le nouveau release. Nous avons tué les jobs de Atlas qui tournaient, bloqué l'entrée des jobs en machines. Ceci a pris environ 36 heures. Tant que le la nouvelle procédure de releases des softwares ne sera pa mise en place, ce problème se reposera. * 3 juillet: Perte de 1348 fichiers dans dCache dûs à une erreur de manipulation * 6 juillet: de nouveau, l'installation d'un release a nécessité de bloqué l'entrée en machine de tous les jobs du groupe ainsi que de tuer tous les jobs atlas050 ( 2000 environ!) qui tournaient. * Probleme VO "Problème dans l'installation des releases ATHENA sur AFS" (http://cctools2.in2p3.fr/elog/problemes-VO/82): le problème principal qui est celui de la méthode des releases sur AFS et de la charge que ces releases induisent est toujours d'actualité. La nouvelle procédure pour faire les releases d'une manière plus automatique n'est toujours pas finalisée. CMS: ==== * No issue to report, everything run smoothly last week. * Excellent site readiness and availability (see http://cctools2.in2p3.fr/elog/support-cms/75). * Hot topic: SL5 and plan for migration - The message forwarded. - A testbed with a set of WNs based on SL5 platform is available. - CMS can submit directly to the CE on the corresponding dedicated queue until the publication is done. - No reponse from CMS for testing this way. - A CE host will be installed, configured and eventually published in the BDII with the aim to allow CMS to test and validate the platform. - This is expected this week, Pierre should confirm that - Expected time for deployment and migration to SL5 (after that all LHC experiments test the platform) would be by end of September/octobre - The possibility to co-existence of both platforms SL4 and SL5 is foreseen, as done for other platforms. LHCb: ===== * Concernant le 'Le disk quota exceeded' (voir Bilan semaine du 15 juin -22 juin), LHCb précise que 'Le disk quota exceeded' peut surgir également dans les jobs de merging (fichiers de taille jusqu'à 30 GB) -> Suzanne a autorisé les jobs de prod à acceder à la classe 'very long' (classe J). Néanmoins LHCb est en train de modifier la stratégie de merging pour rester au dessous de 16 GB, donc la classe long devrait suffire -> donc pas de publication de la classe very long pour lhcb pour l'instant. * Probleme VO " Mauvais score concernant les tests d'accés aux data avec dcache" (http://cctools2.in2p3.fr/elog/problemes-VO/91): 0) La bande passante a ete augmentee. 1) un nouveau problème est apparu qui ne concerne pas l'accès aux fichiers (jobs suspendus pendant le downloading du InputSandBox). Under investigation. 2) l'accès aux fichiers a été amélioré, mais c'est à confirmer avec une statistique complète, une fois résolu le problème 1). Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
  
  Orateur: Tous
- 2
  
  Charge et événements prévisibles pour la semaine à venir
  
  Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
  
  Orateur: Tous
- 3
  
  Nouvelles des équipes du CC
  
  Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
  
  Orateur: Un membre de chaque équipe
- 16:40
  
  break
- 4
  
  Etat des projets Grille
  
  - EGEE (Rolf) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
- 5
  
  Formation et dissémination
  
  Formations et actions de dissémination passées, en cours, à prévoir.
  
  Orateur: Virginie, tous
- 6
  
  Nouvelles des coopérations
- 7
  
  Affaires administratives
  
  - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
- 8
  
  Divers