Sujets Exploitation+Stockage:
----------------------------------
Mercredi 03/02
--------------
* blocage de la ferme de 9h à 14h30 pour changement des serveurs DB. Le redemarrage des démons bqsd sur les
workers a été très fastidieux. Au redémarrage OnlinePeriod mise à 1 jour car nous avons ~100000 jobs ended par
jour soit +50%
* synchronisation de l'horloge sur ccacsls3 - arrêt du service pendant ~20mn.
Jeudi 04/02
-----------
* vu un problème NIS pour les workers dans le sous réseau 168. qstop sur les machines (blades), ajout un serveur
supplémentaire et remise en prod des machines. Mais le problème persiste.
Vendredi 04/02
--------------
* suit du problème NIS : Les maps NIS de ccyp-168-02 étaient fausses, la machine ayant démarré sans se mettre a
jour. Synchronisation faite par PYF, ensuite plus aucunes erreurs.
* blocage du SRM de 8h30 a 11h20 (heure de redémarrage du SRM). TOujours le meme probleme non compris.
* blocage de la ferme anastasie pendant ~8mn pour mettre un index supplémentaire sur une base -> insertion des
jobs plus rapide -> qsub plus rapide.
* augmentation du MaxSimultaneousSpawn à 400 puis à 500 pour essayer de remplir la ferme.
* constatation qu'atlas a 68% de jobs qui consomment moins de 30s de cpu reel. Mais au support atlas et Rolf en
parle au WLCG meeting.
* suppression de machines dans la conf de BQS. Ces machines avaient ete mises dans l'état UNINITILIZED fin
novembre, mais lors d'un arrêt elles étaient passées TERMINATED (modification dans la base). Ceci faussait la
publication de puissance du CC.
* sondes Xrootd en erreurs (timeout). JYN a redemarré les instances "generales" du service et c'est redevenu normal.
Sujets Support:
-------------------
Problèmes récurrents:
-------------------------
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache