Sujets Stockage:
-------------------
- HPSS: RAS
Sujets Exploitation:
------------------------
- le DB serveur esclave de BQS est tombé en panne mardi dernier. Elle a ete remplacée provisoirement jeudi par la machine de "spare" du serveur BQS. La machine devrait revenir en prod demain ou mercredi, ca engendrera un blocage de la ferme de ~1h dans la matinée.
- problème dcache (PNFS) vendredi vers 11h30. Rétabli vers 18h le meme jour.
- il y a 4 racks de workers hors prod, ces machines seront deplacées en salle machine et remises en prod dans la semaine.
Un arrêt dCache est programmé pour le 26/01 (mise a jour système de serveurs).
Sujets Support:
-------------------
CMS:
====
* SAM test:
Jobs with the production role stay more than 24 hours in the queue and then are aborted for proxy expiration:
https://lcg-sam.cern.ch:8443/sam/sam.py?funct=TestResult&nodename=cclcgceli03.in2p3.fr&vo=CMS&testname=CE-cms-prod&testtimestamp=1232205548
This was reported in the Facility operation meeting. My explanation is the following: this is could happened if those SAM jobs lend to CCIN2P3 when the queues were full.. But, I guess this symptom needs to be followed for finding out in which condition this problem happens.
* PNFSManager
This is just to let you known the PNFSManager pb occurred on Friday 16th was affected many reprocessing jobs and transfers for site commissioning.
Atlas:
======
* jobs lents : depuis une semaine, ATLAS a eu 2 series de jobs lents, qui ont ete du :
- a un probleme dcache (vendredi 16 Janvier);
- a un utilisateur grille qui a lance ~600 jobs sur la ferme, chacun faisait un gmake attaquant la meme release semble-t-il (nous n'avons pas les outils pour verifier 600 jobs simultanement comme les sys-admin par exemple), ce qui a surcharge afs08. Les jobs se sont evacues d'eux-meme. Nous avons tout-de-meme notifie l'utilisateur en question de cette mauvais utilisation. Des outils ATLAS existent pour faire un executable unique et envoyer 600 jobs avec.
* transferts massifs T1-T1 : la semaine derniere (debut le mercredi 14 janvier) ATLAS a mene un test de transferts de petits fichiers (en tres grand nombre) de T1 a T1 (10 millions de fichiers repartis entre 10 T1, pour une duree de 10 jours au plus). Lyon a eu une bonne efficacite mais le nombre de fichier qui a ete transfere est tres en dessous de ce que nous aurions attendu (en comparant aux autres T1s). Les canaux FTS sont pourtant pleins. Cela reste a investiguer.
* cclcgceli02 moins reactif : hier lundi 19 janvier Pierre Girard a installe un nouveau BQS manager sur 2 CEs (1 du T1 et un du T2), notamment sur cclcgceli02 (T1 atlas) qui faisaient moins rentrer de jobs sur BQS que cclcgceli01 (T1 atlas), alors que ces 2 CEs sont traites de facons absolument identiques en amont (i.e ils recoivent le meme nombre de jobs pilotes). Cette manipulation a eu un effet tres positif (augmentation tres nette du nombre de jobs) mais nous attendons de voir ce qu'il se passe sur qq jours pour conclure definitivement [Pierre Girard peut sans doute completer].
Alice:
======
* Nothing to report (no jobs for Alice at CC).
LHCb:
=====
* Nothing to report (no mail received from LHCb).
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache