Réunion jointe Opération + AT Grille
mardi 13 juillet 2010 -
16:00
lundi 12 juillet 2010
mardi 13 juillet 2010
16:00
Etat des projets Grille
Etat des projets Grille
16:00 - 16:10
Room: 322
- EGI-Inspire ( Hélène) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) - ENS/DIET ( Sylvain) - GRILLES PROD/GRILLES RECHERCHE (Sylvain) et projets en préparation, le cas échéant.
16:10
Nouvelles des coopérations
Nouvelles des coopérations
16:10 - 16:15
Room: 322
- EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
16:15
Formation et dissémination
-
Virginie, tous
Formation et dissémination
Virginie, tous
16:15 - 16:20
Room: 322
Formations et actions de dissémination passées, en cours, à prévoir.
16:20
Préparations transition ROC Fr --> NGI Fr - Asupprimer cette rubrique - A remplacer par la rubrique logistique
-
Rolf
Préparations transition ROC Fr --> NGI Fr - Asupprimer cette rubrique - A remplacer par la rubrique logistique
Rolf
16:20 - 16:35
Room: 322
- Site web France Grilles (Virginie) -- à continuer - Plan d'organisation des Opérations (Rolf) -- HC va évaluer les besoins du groupe OPTIC. Réunion qui rassemble les opérateurs - Biomed et les LCG - PG -- Atlas est similaire à OPS, LHCb, cms (?), Alice (?); valider avec FC.
16:35
Affaires administratives
Affaires administratives
16:35 - 16:40
Room: 322
- Missions et absences dans la semaine à venir - Conférences / workshops annoncés
16:40
break
break
16:40 - 16:45
Room: 322
16:45
Incidents et problèmes des VOs (CC, sites français, autres sites)
-
Tous
Incidents et problèmes des VOs (CC, sites français, autres sites)
Tous
16:45 - 17:15
Room: 322
Sujets Exploitation+Stockage: ---------------------------------- ** Lundi 5/07 Sortie du rack SL4 pour migrationen SL5 Les sylinux travaillent sur un rack (mis hors prod sr demande) pour mise à jour sur les composants suivants - le kernel - la version d'openAFS - la version de GPFS - les paramètres du noyau car visiblement la solution nouveau kernel+paramétrage du noyau a prouvé sa stabilité (aucune machine crashée en plus de 3 semaines de test, sur un rack). La mise à jour se fera progressivement, au fur et à mesure des plantages des machines 15H00 : Incident de clim au CINES 15h10 : La procédure d'arrêt d'urgence des workers s'est déclenchée automatiquement. Tous les racks sont été ensuite sortis avec takeoutWorker Pbm FCR ALICE persistants la sonde est en erreur depuis 3 jours. Dmde d'explications en cours. ** Mardi 06/07 ATLAS les jobs dans le cadre de l´exercice de prestaging de ATLAS commencent a etre lances. Il y a timout ábord un petit nombre de jobs qui tournent, juste pour tester la machinerie. Le gros sera lance apres. L'évolution en onction du temps du nombre de jobs de prestaging qui tourne ici (histogramme vert) : http://gridinfo.triumf.ca/panglia/graph-generator/?SITE=FR&TASK=reprocessing&TIME=day&SIZE=large Mise hors prod du rack SL4 ** Mercredi 07/07 Relance ALICE par rapport aux tests FCR qui plantent depuis longtemps Possibilité d'arrêter 3 racks dell_lcp00 - 01 -02 en vue de réduire la consommation en clim pour un week end trés chaud validée en CD. Toutes les VOs LHC sont d'accord pour cette réduction de puissance quise justifie par le fait que ces derniéres semaines les workers sont sous-utilisés. Racks stoppés. ** Jeudi 08/08 vladimir.kulikovskiy@ge.infn.it a des jobs trop courts. Mail + réponse Sorry for that. Actually I was quite confused - when I do local tests, job runs during 40sec (when data file was downloaded before from SRB). But when it launches through batch, it takes much more time (maybe downloading from SRB eats all the time). I'll be more careful. > Hello, > > Yo have submitted about 7000 jobs these last 2 days. All of them are failling used about 40 sec UI. > > They seems to ask for files from SRB without specifying the resource SRB at submission: > > Root directory set to ANTRS_ROOT = /afs/in2p3.fr/home/throng/antares > 22 You are using the prod version of the SRB utilities. > 23 24 ANTARES environment : host = ccwl9176 system = Linux Préparation de l'arrêt du 21/09 https://cctools.in2p3.fr/operations/wiki/doku.php?id=arrets:arret21092010 ** Vendredi 09/09 Les jobs de lsst ne rentrent pas. Ils ont consommé leur quota CPU ++. Je leur ai demandé de faire passé une demande de CPU supll par ticket. Takeout effectué à cause de : scratch full - lenteur. Machine(s) concernée(s) : ccwl1181 Les racks suite à une forte activité de ATLAS ont été remis en prod suite à confirmation par sysadmin qu'il n'y a pas de risque à mettre en péril la SM. FCR alice - réponse "France and hence CC is in Nagios, but not yet fully in production, but in validation, so no problem" ces tests on donc du sens, mais etant en validation, le mieux est que l'exploitation n'en tienne pas compte jusqu'a nouvel ordre. Sujets Support: ------------------- Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
17:15
Charge et événements prévisibles pour la semaine à venir
-
Tous
Charge et événements prévisibles pour la semaine à venir
Tous
17:15 - 17:20
Room: 322
Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
17:20
Nouvelles des équipes du CC
-
Un membre de chaque équipe
Nouvelles des équipes du CC
Un membre de chaque équipe
17:20 - 17:25
Room: 322
Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
17:25
Divers
Divers
17:25 - 17:30
Room: 322