Presents: YoC, YaC, OA, SL, PG, PEB, HC, MH
Stockage :
------------
Incidents robotique hier et arrêt prévu demain pour modifier les librairies de HPSS, intervention de SUN.
- Exploitation
Atlas:
- Campagne de rep-rocessing generant bcp de core files (pb temporaire non bloquant, du à des limitations de mémoire demandées sup. à la queue qui fait planter les jobs).
- jobs lents: release à repliquer sur AFS -- procedure manuelle de réplication du s/w en RO en attendant la procedure automatique d'accés RW.
- jobs en queue (passes de schedule BQS trop longues):
Cela serait du à l'implémentation des shares qui rallongent les passes de scheduling de BQS, BC au courant) ==> le nombre de job en queue augmente et le paramétrage de BQS a été modifié an attendant une modification de BQS en profondeur.
Cms:
- Jobs lents (pb de config d'un serveur dcache) cf. la contribution de [FF] ci-dessous et un mail de JS à l'exploitation en milieu de semaine dernière.
- Support:
CMS [FF]:
====
* 20TB was added to accommodate the unmerge files. This was done on 23th December, since then many slow jobs was seen at CCIN2P3. On 6th January, we discovered that some of the installed pools were mis-configured. This issue caused the slowness of many reprocessing jobs since 28-29th December.
Summary: Issue fixed completely on 9th January.
* Issue with copying a file from CCIN2P3 to Floreda using "srmcp". It seems that there is the pinning issue behind this. Issue still open. We have suffered from this issue with the merge jobs on 8th December too. Jonathan has to remove from the database all the entries of the pinning files.
JS teste une interface optimisée entre dcache et hpss.
ATLAS
-----
ras
CMS
---
RAS
ALICE
-----
RAS
- AT Grille generale
------------------
CE : problème récurrent sur les X3550, IBM. Le CE ne répond plus et les machines doivent être rebootées. Migration des CE sur de nouvelles machines (6) -- en cours d'installation.
Nagios déjà migré.
Implementation des shares sur les job managers : en test sur un CE en prod.
Puis installer un nouveau CE avec l'ancien job manager en parallèle
Le changement de version de CE interviendra au préalable et il est important car la nouvelle version concerne l'installation de nouveaux services.
-Incident sécurité qui impacte FTN, le monitoring de FTS en cours. Pierre doit envoyer un mail à ftsmaster.
- CA GRIDFR/CNRS/CNRS-PROJETS: renouvellement des CA du CNRS en raison du changement d'algorithme de la signature du certificat de la CA (faille de sécurité). Cela doit être fait avant la fin du mois.
Le changement serait fait de façon transparente à l'occasion d'un renouvellement de certificat.
Pour les certificats serveur et service, il faudra demander un nouveau certificat. Alice s'engage à garder le DN. Pierre doit propager les changements au CC dès que les dernières imprécisions sont levées.
- Charge et événements prévisibles pour la semaine à venir
YC poste une news sur la perturbation HPSS demain.
PG signale une surcharge due à la réinstallation des CEs et à la libération des machines 3550 dans les prochaines semaines - fonctionnement dcache, maj des crl, machines VMS : impact Lavoisier test,...
Nouvelles des équipes du CC - ayant un impact sur l'exploitation:
_____________________________________________________
Support -
- YCa Publication du profil de poste support
- Annonce de la Réunion des expériences le 19/01/09 :
PG demande à ce que les représentants des VOs - hors CC pour la France- soient identifiés et informés de la possibilité pour les VOs de faire des demandes de ressources lors de la réunion des expériences, notamment pour demander une partie des 5% de ressources attribuées aux VOs non LHC. (YoC pour la VO - grille régionale, Biomed avec Y.Legré, VO formation avec P.Girard?)
- Luisa en congés maternité, retour en Avril.
Activité Grille-
PEB annonce la Formation supervision d'un site grille par Nagios les 22 pm -23 Janvier toute la journée et demande à MH de s'inscrire.
Stockage-
ILC /Calice est configuré dans dcache et peut transférer dans HPSS.
Plannification de la migration de la version HPSS 6.2
Développement-
RAS
Sysadmins-
Changement de procédure du système qui gère l'installation des machines : BOA+PUPETT
Arrivée de Marcos Lins le 15 Janvier dans l'équipe developpement.
Congés, missions :
congés PG le 14 /01,
missions OA du 19 au 23, HC le 15/01
Il y a un compte-rendu associé à cet événement.
Les afficher.