Réunion jointe Opération + AT Grille **ANNULEE**
→
Europe/Paris
322 (IN2P3)
322
IN2P3
helene Cordier
(CNRS/IN2P3)
Description
Réunion en deux parties:
1. AT Grille
Participants: ceux de la réunion AT Grille habituelle.
2. Opération site CCIN2P3
Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour,
plus ceux de la réunion AT Grille habituelle.
-
-
16:00
→
16:10
Etat des projets Grille 10m- EGI-Inspire ( Hélène) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) - ENS/DIET ( Sylvain) - GRILLES PROD/GRILLES RECHERCHE (Sylvain) et projets en préparation, le cas échéant.
-
16:10
→
16:15
Nouvelles des coopérations 5m- EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
-
16:15
→
16:20
Formation et dissémination 5mFormations et actions de dissémination passées, en cours, à prévoir.Orateur: Virginie, tous
-
16:20
→
16:35
Préparations transition ROC Fr --> NGI Fr - Asupprimer cette rubrique - A remplacer par la rubrique logistique 15m- Site web France Grilles (Virginie) -- à continuer - Plan d'organisation des Opérations (Rolf) -- HC va évaluer les besoins du groupe OPTIC. Réunion qui rassemble les opérateurs - Biomed et les LCG - PG -- Atlas est similaire à OPS, LHCb, cms (?), Alice (?); valider avec FC.Orateur: Rolf
-
16:35
→
16:40
Affaires administratives 5m- Missions et absences dans la semaine à venir - Conférences / workshops annoncés
-
16:40
→
16:45
break 5m
-
16:45
→
17:15
Incidents et problèmes des VOs (CC, sites français, autres sites) 30mSujets Exploitation+Stockage: ---------------------------------- ** Lundi 5/07 Sortie du rack SL4 pour migrationen SL5 Les sylinux travaillent sur un rack (mis hors prod sr demande) pour mise à jour sur les composants suivants - le kernel - la version d'openAFS - la version de GPFS - les paramètres du noyau car visiblement la solution nouveau kernel+paramétrage du noyau a prouvé sa stabilité (aucune machine crashée en plus de 3 semaines de test, sur un rack). La mise à jour se fera progressivement, au fur et à mesure des plantages des machines 15H00 : Incident de clim au CINES 15h10 : La procédure d'arrêt d'urgence des workers s'est déclenchée automatiquement. Tous les racks sont été ensuite sortis avec takeoutWorker Pbm FCR ALICE persistants la sonde est en erreur depuis 3 jours. Dmde d'explications en cours. ** Mardi 06/07 ATLAS les jobs dans le cadre de l´exercice de prestaging de ATLAS commencent a etre lances. Il y a timout ábord un petit nombre de jobs qui tournent, juste pour tester la machinerie. Le gros sera lance apres. L'évolution en onction du temps du nombre de jobs de prestaging qui tourne ici (histogramme vert) : http://gridinfo.triumf.ca/panglia/graph-generator/?SITE=FR&TASK=reprocessing&TIME=day&SIZE=large Mise hors prod du rack SL4 ** Mercredi 07/07 Relance ALICE par rapport aux tests FCR qui plantent depuis longtemps Possibilité d'arrêter 3 racks dell_lcp00 - 01 -02 en vue de réduire la consommation en clim pour un week end trés chaud validée en CD. Toutes les VOs LHC sont d'accord pour cette réduction de puissance quise justifie par le fait que ces derniéres semaines les workers sont sous-utilisés. Racks stoppés. ** Jeudi 08/08 vladimir.kulikovskiy@ge.infn.it a des jobs trop courts. Mail + réponse Sorry for that. Actually I was quite confused - when I do local tests, job runs during 40sec (when data file was downloaded before from SRB). But when it launches through batch, it takes much more time (maybe downloading from SRB eats all the time). I'll be more careful. > Hello, > > Yo have submitted about 7000 jobs these last 2 days. All of them are failling used about 40 sec UI. > > They seems to ask for files from SRB without specifying the resource SRB at submission: > > Root directory set to ANTRS_ROOT = /afs/in2p3.fr/home/throng/antares > 22 You are using the prod version of the SRB utilities. > 23 24 ANTARES environment : host = ccwl9176 system = Linux Préparation de l'arrêt du 21/09 https://cctools.in2p3.fr/operations/wiki/doku.php?id=arrets:arret21092010 ** Vendredi 09/09 Les jobs de lsst ne rentrent pas. Ils ont consommé leur quota CPU ++. Je leur ai demandé de faire passé une demande de CPU supll par ticket. Takeout effectué à cause de : scratch full - lenteur. Machine(s) concernée(s) : ccwl1181 Les racks suite à une forte activité de ATLAS ont été remis en prod suite à confirmation par sysadmin qu'il n'y a pas de risque à mettre en péril la SM. FCR alice - réponse "France and hence CC is in Nagios, but not yet fully in production, but in validation, so no problem" ces tests on donc du sens, mais etant en validation, le mieux est que l'exploitation n'en tienne pas compte jusqu'a nouvel ordre. Sujets Support: ------------------- Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCacheOrateur: Tous
-
17:15
→
17:20
Charge et événements prévisibles pour la semaine à venir 5mDemandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009Orateur: Tous
-
17:20
→
17:25
Nouvelles des équipes du CC 5mSujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauchesOrateur: Un membre de chaque équipe
-
17:25
→
17:30
Divers 5m
-
16:00
→
16:10