Réunion jointe Opération + AT Grille

Name: Réunion jointe Opération + AT Grille
Start: 2009-12-15T16:00:00+01:00
End: 2009-12-15T17:30:00+01:00
Location: IN2P3

mardi 15 déc. 2009, 16:00 → 17:30 Europe/Paris

322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3), helene Cordier (CNRS/IN2P3)

Description

Réunion en deux parties: 1. AT Grille Participants: ceux de la réunion AT Grille habituelle. 2. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle.

Cacher

Réunion jointe Opération + AT Grille (15 Dec 2009) Chaired by: Mr. Rumler, Rolf; Cordier, helene Participants: SR, PG, DB, CO, HC, RR, VD Secrétaire : Hélène 1- Etat des projets Grille: EGEE -- gstat 2 : HC doit envoyer à SA1FR, l'annonce du test qui va tourner critique en début d'année -- HEPSEC 06 : le planning du HEPSEC06 et le retour des sites français tous sont d'accord pour le publier mais ils ne sont pas d'accord pour payer la licence PG suit l'implémentation du planning HEPSEC06 selon le planning EGEE. HC précise que la procédure d'implémentation est légèrement modifiée au jour d'aujourd'hui. -- Baseline services validé par NT - high priority. EGI-Inspire -- N/A IDG --N/A LCG -- A l'attention des supports VOs LHC, communiquer à RR les n°s de tickets GGUS potentiels. RR va demander ce flux d'information à tous les supports des VOs LHC avant 14h00 concernant tous les problèmes d'exploitation des VO LHC avant la réunion quot. de 15h. Grille Regionale --N/A Preparation transition ROC Fr --> NGI FR GW n'est pas opposé à une solution externalisée/internalisée ou mixte du développement du portail des opérations. VD a envoyé un cahier des charges la semaine dernière et RR demande à ce que ce soit envoyé à grid pour la fin de la semaine. La réunion d'information du 11/12/09 a débouché sur quelques questions, il faut établir un modèle de mandat pour les tâches définies. RR met en place un mediawiki pour les opérations de la NGI. RR règle les problèmes de certificats avec PEM. En attente des participants à nommer au conseil de transition comme la CGG. NL ou MH doivent rejoindre le groupe de monitoring de Ch LEROY pour suivre le monitoring regional. Le monitoring du CC et le monitoring régional doivent être en cohérence dans ce groupe de travail. Ch LEROY doit faire remonter la demande de ressources nécessaires au groupe de travail Monitoring Nagios via la définition du mandat. PG doit établir un mandat pour le support aux sites et la certification. Délai de fabrication/Modèle des mandats à définir. HC et DB doivent vérifier les mandats à faire. Nouvelles des coopérations - Prague : n/a - CS/CILOE :n/a - EELA : n/a Formation et dissémination - VD : ras Missions administratives ------------------------------- - congès généraux de 15j pour les participants - ROD et C-COD, assuré pendant la période de Noel, ROC rapport rempli par PG , et HC sera présente à la GDA du 04/01/09 pour le Portail. Précautions pour la période de Noël : ROD doit poser les DT si les sites ont signalé que le ROC doit les superviser. cf mail de Pierre Girard. Incidents et problèmes des VOs Sujet Exploitation+Stockage [DB, PG] ----------------------------------------------- n/a Incident du 08/12 : rôle de l'exploitation à définir pour des propositions concrètes et constructives Arrêt de service du 22/12/09 : DT posé at risk sur ccsrm, évaluation de l'impact à confirmer avec les contacts VOs (?) Sujet Support: ----------------- HC mentionne l'initiative de PG pour RR mentionnée dans rubrique état des projets grille: LCG. LHCB : data access via gsidcap - pb rentré par HC dans le suivi récurrent des pbs http://cctools2/elog/problemes-VO/?id=126 puisque le pb date du 07/12/09 et a donné lieu à 2 tickets team pour le CC. CMS : FTS : passage à FTS2.2 reglerait le pb de CMS à voir avec FH et FF/suivi par DB Problèmes récurrents: RAS. Charge et évènements prévisibles : DB doit voir avec GR comment spécifier l'impact de l'arrêt du 22/12/09 au sujet de l'arrêt d'HPSS . Nouvelle des équipes du CC/ Divers : ras

Il y a un compte-rendu associé à cet événement. Les afficher.

- 16:00 → 16:10
  
  Etat des projets Grille 10m
  
  - EGEE (Hélène) - EGI-Inspire - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
- 16:10 → 16:25
  
  Préparations transition ROC Fr --> NGI Fr 15m
  
  - Cahier de charges site web (Virginie) - Plan d'organisation des Opérations (Rolf)
  
  Orateur: Rolf
- 16:25 → 16:30
  
  Nouvelles des coopérations 5m
  
  - Prague - CS / CILOE - EELA
- 16:30 → 16:35
  
  Formation et dissémination 5m
  
  Formations et actions de dissémination passées, en cours, à prévoir.
  
  Orateur: Virginie, tous
- 16:35 → 16:40
  
  Affaires administratives 5m
  
  - Missions et absences dans la semaine à venir - Fin d'année: ROD, grid-roc, rapports ROC et site - Conférences / workshops annoncés
- 16:40 → 16:45
  
  break 5m
- 16:45 → 17:15
  
  Incidents et problèmes des VOs (CC, sites français, autres sites) 30m
  
  Sujets Exploitation+Stockage: ---------------------------------- - 07/12 : incident ACSL : trop de processus service redémarré. ACSLS a été indisponible entre 13H30 et 15H, donc pas de montages de bandes pdt cette prériode. Vers 15h il a été redémarré et les ressources HPSS ont été drainées entre 14H et 15H30. - 07/12/ : Echec de la connection CC-CINES : sortie du rack montpellier_0 - 07/12 : Suzanne reléve un pbm : un user biomed 32 reste bloqué alors qu'il aurait du être débloqué. -> Pbm de synchro dans SAPHIR corrigé par JD le lendemain 08/12 : des wns rebootent subitement suite à un kernel panic. Klaus werner est en discussion avec YP sur le sujet. - 09/12 : quelques workers sortis de prod pour des anomalies ccautofs - Toutes les machines de montpelliers sont UP : celles transférées et celle arrêtées Lundi soir. - 11/12 : Arrêt xrootD : mardi 15. Drainer Des déplacements de racks logeant des servers thumpers pour XROOTD vont avoir lieu le 15/12 matin (vers 9h normalement). Cela implique une interruption nette du service à 9h. Toutes les expérience sont impactées sauf ATLAS. Les ressources (u_xrootd et u_bb_root) seront drainées la veille à minuit afin d'éviter que des jobs restent en machine et dmdent xrootd pendant l'intervention et éviter qu'ils ne rentrent en machine pdt l'intervention. - 08/12 : incident lbnamed. SIR envoyé. Indisponibilité des services entre 13h - 14h30 [liste dans le wiki] https://cctools.in2p3.fr/operations/wiki/doku.php?id=incidents:incidentreseau0812009 - 11/12 : [info CC] Arret de service le 22/12/2009 _*Voir si il faut mettre un DT dans la GOC DB pour SRM *_ - HPSS : RAS. Cde de bande en cours. Sujets Support: ------------------- _LHCb_ : 1) Encore un problème de data access via gsidcap pour des jobs utilisateurs : Voir le GGUS ticket pour plus des détails : https://gus.fzk.de/ws/ticket_info.php?ticket=54090 2) Some jobs fail because of Disk quota exceeded (not real data reconstruction jobs). This is due to the download of input files -> Max scratch of T class increased to 20 GB. 3) CPU publication fixed -> almost no more jobs killed for CPU exceeded. _CMS_ : Transfer ****** - The import and the export of the real data had more often an issue with the FTS timeout. This is happened because of the files size in same cases reaches 4 time the nominal one. Since the startup of the LHC all the real data imported to FNAL, they have evenly routed to CC. The data are split among files of size much more that the nominal one (10GB). This impact the quality and rate of the transfer due to the timeout limitation - The timeout of the dedicated T1 links managed by out FTS was increase to fix temporary this issues, a details analysis will be done to understand all the parametres that can be ajusted to fix this issue. The expectation also rely on the FTS2.2 to solve the issue, since it can with new feature, in particular better handle of the timeout.. - The have increased as well the timeout of the IN2P3-->STAR and STAR-->IN2P3. - Some issues with dcache have impacted the transfer too, they have been identified and fixed. Disk deployment ************* - The disk deployment of 2009 has been discussed and concluded with dcache masthers. Reprocessing ********** - CMS wants to keep the real data on disk during one year for fast reprocessing. This has been discussed with dcache expert, and the Lionel proposition was adapted for this needs. _Atlas_ : - periode de prise de donnees : tres bonne stabilite du CC et tres bonne efficacite (transferts et jobs) - 14 fichiers perdus dans dcache entre le 1 novembre et le 1 decembre (mecanisme compris et patche) - cclcgatlas04 /var plein (logs ascii des jobs ATLAS) -> ca plante la soumission des jobs ATLAS Pierre Girard a bascule /var/www vers /vo/atlas/www (il faudra basculer aussi httpd, sinon logs invisibles) aussi, ATLAS est en train de voir si zip des logs est possible - Problèmes dans les transferts: * lenteur de certains transferts observes (BNL). On ne comprend pas l'origine du problème malgré un travail en collaboration avec les experts de BNL. On a vérifié que les performances du reseau (IPERF) n'étaient pas en cause. On constate qu'il y a beaucoup de transferts de petits fichiers, ce qui est pénalisant. * On observe des transferts en timeout. Certains des transferts venaient de/ allaient vers ccdcatsn110 qui a été arrétée. Cela n'a pas résolu le problème. Entre temps, elle a été reconfigurée et installée. Un poste actuellement explorée est la dégradation des performances gridftp dans dcache 1.9.5. - Augmentation de la reactivite du CC aux jobs d'analys: on a testé la réactivité de la ferme en reservant un point d'execution par worker aux jobs de class G. Une amélioration nette a été observée. - reprocessing prevu pendant les vacances de fin d'annee (prevision : debut 22 decembre - fin a janvier); les data seront pris de disk. -Installation des releases Athena: on prévoit d'installer les releases automatiquement sur 1 CE par site (T1, T2) et de créer un script qui tourne régulièrement pour mettre à jour et synchroniser les tags des 2 CES d'un même site. QUESTIONS: - arret HPSS du 22 decembre - impact sur ATLAS ? Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
  
  Orateur: Tous
- 17:15 → 17:20
  
  Charge et événements prévisibles pour la semaine à venir 5m
  
  Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
  
  Orateur: Tous
- 17:20 → 17:25
  
  Nouvelles des équipes du CC 5m
  
  Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
  
  Orateur: Un membre de chaque équipe
- 17:25 → 17:30
  
  Divers 5m

Choisissez le fuseau horaire

Réunion jointe Opération + AT Grille

322

IN2P3