Réunion jointe Opération + AT Grille
→
Europe/Paris
322 (IN2P3)
322
IN2P3
Rolf Rumler
(CNRS/IN2P3)
Description
Réunion en deux parties:
1. Opération site CCIN2P3
Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour,
plus ceux de la réunion AT Grille habituelle.
2. AT Grille
Participants: ceux de la réunion AT Grille habituelle.
-
-
16:00
→
16:30
Incidents et problèmes des VOs (CC, sites français, autres sites) 30mSujets Exploitation+Stockage: ---------------------------------- Des sondes Nagios sont en préparation pour la surveillance des services grilles: - CRL - espace /vo sur VOBOX - slow jobs par VO Sujets Support: ------------------- Alice: ====== Production is over. Atlas: ====== * Probleme ouvert : comment communiquer des arrets partiels ? Dernier week-end tres chaud et thumpers abritant pools dcache T0D1 atlas mis offline. Cela a induit des problemes sur : 1- les jobs atlas (production et analyse) : ils sont devenus tres lents et ils sont restes pendus sur des dccp alors que les pools n'etaient plus accessibles; 2- les transferts atlas qui echouaient dans l'attente des fichiers. Eric et Stephane ont demande de faire un downtime pour que les shifters et les analyseurs soient avertis qu'il y a des problemes d'acces aux data au CC mais : - un downtime concerne un CE et pas seulement une queue (un CE habrite plusieurs VO). - un downtime ne concerne pas les elements de dCache (comme les pools) mais dCache dans son ensemble, au mieux, on aurait pu faire un downtime de dcache-LCG. On a pense a fermer les queues d'analyse dans PANDA mais, dans ce cas, les analyseurs via GANGA voient toujours leurs jobs arriver au CC. ==>> proposition de Eric et Stephane faire un downtime AT RISK. ==>> il faut trouver une procédure. * Proxy renewal sur la vobox (probleme VO #75?): la nouvelle vobox de Atlas, cclcgatlas04 ne pouvait pas être mise en production car le système de renouvellement de proxy ne fonctionnait toujours pas. Après beaucoup d'itérations, Pierre a réussi à nous fournir un renouvellement de proxy qui semble bien marcher. La production et l'analyse d'Atlas commencent à être envoyées depuis cette vobox. * Problème de renouvellement des CRL des CA pendant le WE: les serveurs voms du CERN à partir duquel se fait le renouvellement de proxy n'est pas visible. Pierre a redemarré le système de mise à jours des CRL le lundi soir. Projet de migrer ce service sur 2 machines pour assurer une redondance. CMS: ==== last week we performed pre-stage test and found that srmLs not works at CC. Lionel is looking it. We are stating test T1-T1 transfer. 2 other STEP09 tests postponed due HPSS downtime LHCb: ===== * Lenteur d'accès aux fichiers par des jobs d'analyse (probleme VO #72): les actions proposées par Lionel sont toujours en cours. * Problème de 'Data access' (probleme VO #83): LHCb observe des erreurs de data access chez nous et chez les sites gsidcap. Nous sommes en train de reproduire l'erreur localement : - Des tests simples d'ouverture de fichiers sous root via gsidcap dans l'environemment LHCb marchent bien. - Lorsqu'on reproduit exactement les jobs qui causent les erreurs, nous avons une autre erreur liée à comment l'environnement de LHCb est sourcé localement. La prod de LHCb suit ce problème. L'erreur de 'data access' n'a donc pas été reproduite pour l'instant (cf. http://cctools2.in2p3.fr/elog/support-lhcb/12). * Installation du soft dans la shared area : discussion au sein de LHCb concernant la possibilité d'etendre à LHCb le mécanisme de réplication de AFS mis en place par Atlas (cf. probleme VO #60). * IN2P3.fr et IN2P3-T2.fr bannis de la production le 1er juin à cause d'une erreur de upload de fichiers (erreur "send2nsd: NS002 - send error : Bad credentials"). Erreur probablement due aux CRLs non à jour. Les CRLs sont maintenant à jour. Des tests locaux de lcg-cp marchent bien. Demande à LHCb de reintégrer IN3P3.fr et IN2P3-T2 dans la production. Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache - VO Box atlas cclcgatlas02: Mise en place d'un système de renouvellement de proxy "maison". Semble fonctionner. - Réunion vendredi dernier sur la gestion des espaces d'installation du software des VOs, réunissant: gridmaster, afsmaster et VO supports. Une solution satisfaisante serait de gérer un cluster dédié, sur lequel ne tournerait que les jobs des utilisateurs présentant un proxy avec le rôle VOMS lcgadmin. A charge des afsmasters et gridmasters de mettre en place les mécanismes permettant de répercuter sur les volumes Read-Only d'AFS les éventuelles modiciations faites par ces jobs. Il a été aussi proposé, à plus long termes, de lancer le débat dans la communauté "grille" pour avoir un framework plus adapté à la gestion du cycle de vie des softwares de VOs sur les sites. - Problème de mise-à-jour des CRLs. La (vieille) machine qui gère les mises-à-jour des CRLs, via UCRON, a du être déplacée la semaine dernière, et donc arrêtée une heure. Au redémarrage le service UCRON n'a pas bien redémarré. Une vérification trop succincte avait été faite (par moi), mais elle n'était pas efficace. Donc, pendant 5 jours, les CRLs n'ont pas été mises à jour, et dimanche, les premiers symptômes se sont fait sentir. La plupart des services de grille nécessitant de l'authentification ont du dsyfonctionner lundi. J'ai remis en toute la mise-à-jour lundi soir, en rentrant de week-end. Les actions: * Voir avec les Nagiosmasters si la validité des CRLs est testée. Il y avait un test NGOP. A-t-il été porté sur Nagios. * Migrer la mise-à-jour des CRLs sur les 2 nouvelles machines de service (cclcgsrvli01 et cclcgsrvli02). En attente de la livraison d'UCRON pour SL4/64 (Benoit). * Vérifier qu'une fiche existe pour la mise-à-jour des CRLs, afin que Lagaffe puisse s'en occuper le cas échéant.Orateur: Tous
-
16:30
→
16:35
Charge et événements prévisibles pour la semaine à venir 5mDemandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.Orateur: Tous
-
16:35
→
16:40
Nouvelles des équipes du CC 5mSujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauchesOrateur: Un membre de chaque équipe
-
16:40
→
16:45
break 5m
-
16:45
→
16:55
Etat des projets Grille 10m- EGEE (Rolf) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
-
16:55
→
17:00
Formation et dissémination 5mFormations et actions de dissémination passées, en cours, à prévoir.Orateur: Virginie, tous
-
17:00
→
17:05
Nouvelles des coopérations 5m
-
17:05
→
17:10
Prévisions vacances et continuité des services 5m
-
17:10
→
17:15
Affaires administratives 5m- Missions et absences dans la semaine à venir - Conférences / workshops annoncés
-
17:15
→
17:20
Divers 5m
-
16:00
→
16:30