Sujets Exploitation+Stockage:
----------------------------------
- très forte réduction de puissance de calcul lundi dernier (~50%)
remise en production de quelques racks de workers lundi. Nous sommes actuellement a 61% de notre capacité totale. Le retour a la normale devrait se faire en fin de semaine ou début de semaine prochaine.
- arrêt HPSS pour configuration mardi dernier, mais ça a du être déjà abordé.
- problème de robotique ce weekend, mais transparents (ou presque) pour hpss. Il y a un changement de main, swap de 2 autres, blocage d'un lecteur, nettoyage de cellules de calibration de plusieurs élévateurs.
Sujets Support:
-------------------
Alice:
======
Atlas:
======
* 1-2 juillet: Blocage AFS: A la suite d'une nouvelle demande de release pour le software de Atlas, le volume a été mis en RW. Mais simultanément, beaucoup de jobs demandaient des fichiers sur ces volumes, ce qui a créé des surcharges et une impossibilité pour le package de release du software de créer le nouveau release. Nous avons tué les jobs de Atlas qui tournaient, bloqué l'entrée des jobs en machines. Ceci a pris environ 36 heures. Tant que le la nouvelle procédure de releases des softwares ne sera pa mise en place, ce problème se reposera.
* 3 juillet: Perte de 1348 fichiers dans dCache dûs à une erreur de manipulation
* 6 juillet: de nouveau, l'installation d'un release a nécessité de bloqué l'entrée en machine de tous les jobs du groupe ainsi que de tuer tous les jobs atlas050 ( 2000 environ!) qui tournaient.
* Probleme VO "Problème dans l'installation des releases ATHENA sur AFS" (http://cctools2.in2p3.fr/elog/problemes-VO/82): le problème principal qui est celui de la méthode des releases sur AFS et de la charge que ces releases induisent est toujours d'actualité. La nouvelle procédure pour faire les releases d'une manière plus automatique n'est toujours pas finalisée.
CMS:
====
* No issue to report, everything run smoothly last week.
* Excellent site readiness and availability (see http://cctools2.in2p3.fr/elog/support-cms/75).
* Hot topic: SL5 and plan for migration
- The message forwarded.
- A testbed with a set of WNs based on SL5 platform is available.
- CMS can submit directly to the CE on the corresponding dedicated queue until the publication is done.
- No reponse from CMS for testing this way.
- A CE host will be installed, configured and eventually published in the BDII with the aim to allow CMS to test and validate the platform.
- This is expected this week, Pierre should confirm that
- Expected time for deployment and migration to SL5 (after that all LHC experiments test the platform) would be by end of September/octobre - The possibility to co-existence of both platforms SL4 and SL5 is foreseen, as done for other platforms.
LHCb:
=====
* Concernant le 'Le disk quota exceeded' (voir Bilan semaine du 15 juin -22 juin), LHCb précise que 'Le disk quota exceeded' peut surgir également dans les jobs de merging (fichiers de taille jusqu'à 30 GB) -> Suzanne a autorisé les jobs de prod à acceder à la classe 'very long' (classe J). Néanmoins LHCb est en train de modifier la stratégie de merging pour rester au dessous de 16 GB, donc la classe long devrait suffire -> donc pas de publication de la classe very long pour lhcb pour l'instant.
* Probleme VO " Mauvais score concernant les tests d'accés aux data avec dcache" (http://cctools2.in2p3.fr/elog/problemes-VO/91):
0) La bande passante a ete augmentee.
1) un nouveau problème est apparu qui ne concerne pas l'accès aux fichiers (jobs suspendus pendant le downloading du InputSandBox). Under investigation.
2) l'accès aux fichiers a été amélioré, mais c'est à confirmer avec une statistique complète, une fois résolu le problème 1).
Problèmes récurrents:
-------------------------
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache