Réunion jointe Opération + AT Grille
mardi 20 janvier 2009 -
16:00
lundi 19 janvier 2009
mardi 20 janvier 2009
16:00
Accueil de Marcos LINS
-
Rolf
Accueil de Marcos LINS
Rolf
16:00 - 16:05
Room: 322
16:05
Incidents et problèmes des VOs (CC, sites français, autres sites)
-
Tous
Incidents et problèmes des VOs (CC, sites français, autres sites)
Tous
16:05 - 16:30
Room: 322
Sujets Stockage: ------------------- - HPSS: RAS Sujets Exploitation: ------------------------ - le DB serveur esclave de BQS est tombé en panne mardi dernier. Elle a ete remplacée provisoirement jeudi par la machine de "spare" du serveur BQS. La machine devrait revenir en prod demain ou mercredi, ca engendrera un blocage de la ferme de ~1h dans la matinée. - problème dcache (PNFS) vendredi vers 11h30. Rétabli vers 18h le meme jour. - il y a 4 racks de workers hors prod, ces machines seront deplacées en salle machine et remises en prod dans la semaine. Un arrêt dCache est programmé pour le 26/01 (mise a jour système de serveurs). Sujets Support: ------------------- CMS: ==== * SAM test: Jobs with the production role stay more than 24 hours in the queue and then are aborted for proxy expiration: https://lcg-sam.cern.ch:8443/sam/sam.py?funct=TestResult&nodename=cclcgceli03.in2p3.fr&vo=CMS&testname=CE-cms-prod&testtimestamp=1232205548 This was reported in the Facility operation meeting. My explanation is the following: this is could happened if those SAM jobs lend to CCIN2P3 when the queues were full.. But, I guess this symptom needs to be followed for finding out in which condition this problem happens. * PNFSManager This is just to let you known the PNFSManager pb occurred on Friday 16th was affected many reprocessing jobs and transfers for site commissioning. Atlas: ====== * jobs lents : depuis une semaine, ATLAS a eu 2 series de jobs lents, qui ont ete du : - a un probleme dcache (vendredi 16 Janvier); - a un utilisateur grille qui a lance ~600 jobs sur la ferme, chacun faisait un gmake attaquant la meme release semble-t-il (nous n'avons pas les outils pour verifier 600 jobs simultanement comme les sys-admin par exemple), ce qui a surcharge afs08. Les jobs se sont evacues d'eux-meme. Nous avons tout-de-meme notifie l'utilisateur en question de cette mauvais utilisation. Des outils ATLAS existent pour faire un executable unique et envoyer 600 jobs avec. * transferts massifs T1-T1 : la semaine derniere (debut le mercredi 14 janvier) ATLAS a mene un test de transferts de petits fichiers (en tres grand nombre) de T1 a T1 (10 millions de fichiers repartis entre 10 T1, pour une duree de 10 jours au plus). Lyon a eu une bonne efficacite mais le nombre de fichier qui a ete transfere est tres en dessous de ce que nous aurions attendu (en comparant aux autres T1s). Les canaux FTS sont pourtant pleins. Cela reste a investiguer. * cclcgceli02 moins reactif : hier lundi 19 janvier Pierre Girard a installe un nouveau BQS manager sur 2 CEs (1 du T1 et un du T2), notamment sur cclcgceli02 (T1 atlas) qui faisaient moins rentrer de jobs sur BQS que cclcgceli01 (T1 atlas), alors que ces 2 CEs sont traites de facons absolument identiques en amont (i.e ils recoivent le meme nombre de jobs pilotes). Cette manipulation a eu un effet tres positif (augmentation tres nette du nombre de jobs) mais nous attendons de voir ce qu'il se passe sur qq jours pour conclure definitivement [Pierre Girard peut sans doute completer]. Alice: ====== * Nothing to report (no jobs for Alice at CC). LHCb: ===== * Nothing to report (no mail received from LHCb). AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
16:30
Charge et événements prévisibles pour la semaine à venir
-
Tous
Charge et événements prévisibles pour la semaine à venir
Tous
16:30 - 16:35
Room: 322
Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
16:35
Nouvelles des équipes du CC
-
Un membre de chaque équipe
Nouvelles des équipes du CC
Un membre de chaque équipe
16:35 - 16:40
Room: 322
Sujets par équipe, avec un impact potentiel sur l'exploitation. - AT Grille: besoins Symod Nouvelles des embauches
16:40
break
break
16:40 - 16:45
Room: 322
16:45
Etat des projets Grille
Etat des projets Grille
16:45 - 16:55
Room: 322
- EGEE (Pierre) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
16:55
Nouvelles des coopérations
Nouvelles des coopérations
16:55 - 17:00
Room: 322
- EELA et participation à la conférence EELA-2 (Cyril)
17:00
Affaires administratives
Affaires administratives
17:00 - 17:05
Room: 322
- Missions et absences dans la semaine à venir - Conférences / workshops annoncés
17:05
Divers
Divers
17:05 - 17:10
Room: 322