Sujets Exploitation+Stockage:
----------------------------------
Mercredi :
- lenteurs d'accès aux bases Oracle (charge du à antares).
- beaucoup de jobs lents pour cms050.
jeudi :
- réduction de la ressource u_dcache_cmsf car trop de jobs lents (en attente de fichiers dans hpss). La situation redevient normale dans l'après-midi mais aucune information du support sur la cause réelle.
- cctsli02 (SL5) mise en production. cctsli01 mise disable. Attendre le retour d'espigat sur lecture LTO avant de faire passer cctsli01 en SL5.
Vendredi :
alerte Nagios pour cclcgip03 check_site_publication : il manque 3 DN, ceux de ccsrmt2. Du à un changement de script par Lionel? retour ancienne version.
Sujets Support:
-------------------
ATLAS
*Tests de transferts avec le setup de test mis en place par David pour FTS2.2.3: pour l'instant les transferts plantent bien que le serveur fonctionne correctement. En cours.
* La vobox cclcgatlas03 a été livrée à Atlas après installation par les sysunix, grille et support atlas des couches inférieures. Le proxy renewal marche. Panda (l'exécuteur) n'est pas encore entièrement fonctionnel. Dès que cette vobox fonctionnera correctement, la vieille vobox cclcgatlas02 sera déclarée obsolète. Atlas aura enfon à disposition 2 voboes à jour, cclcgatlas03 et 04 qui assureront la redondance du service.
* Les tests du nouveau Frontier sont en cours. Les premiers résultats semblent très prometteurs pour l'amélioration des accès aux bases de données depuis des sites lointains (Beijong, Tokyo)
* toujours autant de processing Atlas. il s'agit de Monte-Carlo et pas des reprocessing des données tel qu'il a été fait en fevrier. Ce type de tâche tourne en permanence dans les Tier1, sans information spécifique sur son envoi.
CMS
* JobRobot: ok
* SAM: On 19th march SAM test failed due to SRM that was down. The issue was identified and fixed
o Reprocessing:
***************
o On 8th march many slow jobs were seen. There were > 1200 jobs that run over 7 files. This caused the slowness of the jobs to get their input.
o On 11th March many slow jobs seen again. This time the issue was at the dcache level where the stage-out agent was deactivated. The issue was identified in Thursday morning and fixed quickly.
o Phedex:
*******
- release 3.3.0 was installed and all the instances are running with it
- Nicolo has submitted some requests on 1500 files to check the blockverify agent. Everything went fine
o FTS:
*******
- release 2.2.3 was installed, the tests were success. SCHEDULED Downtime on 18th march for upgrading to FTS 2.2.3.
ALICE: RAS
LHCb: RAS
Problèmes récurrents:
-------------------------
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache