Sujets Exploitation+Stockage:
----------------------------------
- le 05/04
* problème robotique : un main fait des reset et plusieurs volumes sont passés absents pendant le weekend
(appel fait par lagaffe). SUN intervient vers 20h, retrouve les volumes et change cette main contre une main du
complexe 4.
* Suite à ça, HPSS a une désynchronisation PVR/PVL pour les montages de T10KA -> limitation de la ressource
hpss a 1500.
- le 06/04 : trop de connexions "close wait" sur cchrfrs001 - du a d0 qui reste bloqué de 9h à 15h avec un
nombre limité à 700.
- le 07/04 :
* toujours trop de charge sur le serveur hpss du aux jobs de lebrun. Blocage des jobs et suppression de tous
ceux qui n'ont pas consommé de cpu. les hpssmasters vont "prestager" une liste de fichiers que lebrun veut accéder.
* 12 workers unreachable dans la nuit - Peu d'éléments sur la cause (voir les mails de Rachid).
- le 08/04
* encore 15 workers UNREACHABLE dans la nuit!
* la main du LSM 0,1 continue a faire des reset - P. Bert dit que c'est une problème "rail" dans le LSM 0,1.
Blocage des lecteurs du LSM 0,1 le matin et main mise InOp dans l'apres-midi. Maintenance du LSM lors de l'arrêt
du 13/04.
- le 09/04
* le prestaging des fichiers de lebrun est presque terminé : déblocage de lebrun en début d'après-midi.
Points importants pour la semaine prochaine :
- changement des ressources dcache pour les jobs de prod atlas voir
http://cctools2.in2p3.fr/elog/support-atlas/238
- arrêt robotique/hpss le 13/04
Sujets Support:
-------------------
Problèmes récurrents:
-------------------------
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache