Réunion jointe Opération + AT Grille (27 Jan 2009)
Chaired by: Cordier, helene
==================
Incidents et problèmes des VOs (CC, sites français, autres sites)
==================
PG, OA, DB, YC, CO, SL, HC, LS, YC, PEB
Secretaire : Hélène
Stockage :
HPSS : RAS
Dcache:
Arrêt du 26 Janvier 09:00- 17:00 : changement de 2 core serveurs IBM3550. Distribution du 3ème core serveur sur 2 machines + maj de dcache sur ces 4 core servers et activation d'une nouvelle versions de gridftp sur quelques machines vers un développement complet.
Après la reprise : le port srm n'était pas visible de l'extérieur résolu rapidemment - pb de firewall - et le 2nd pb qui a duré toute la nuit : l'affectation d'un space token de vieux fichiers atlas a rendu la DB du gestionnaire des reservation incohérent i.e. impossibilité d'écrire sur le SE toute la nuit. Corrigé le 27 matin.
PG: mentionne que le downtimes devrait être fixé un peu large par l'exploitation i.e. rajouter par défaut 2h . Et l'exploitation doit vérifier l'état du service aux environs de l'heure fixée pour rallonger éventuellement le downtimes, sachant qu'il est toujours possible de le raccourcir.
YC mentionne que CB n'a pas recu de réponse à son mail lagaffe concernant le pb. L'erreur n'étant pas répertoriée dans RLS. Doit-on conseiller à lagaffe de vérifier les SAM tests ? PEB suggère qu' 1 sonde Nagios intelligente puisse simuler ce pb. NL note le use-case pour le retransmettre à MH. Il est conseillé au groupe support dans un tel cas d'appeler directement lagaffe. OA mentionne que le bug remonté par CB a été fixé.
autre incident : 1 server de disque a un pb sur un disque, Atlas a des soucis d'accès à 350 000 fichier. XC en cours d'intervention et support prévenu.
Sujets exploitation:
=============
Intervention BQS le 20/01/09 OK. Incident sur BQS le 21/01/09 ok.
Volume surchargé par Atlas : lié à un pb récurrent répertorié
Echec des SAM tests liés au close SE : NL prépare une liste qui recense les types de messages d'erreurs des tests CE, la fréquence et le nombre, sur la semaine en cours, en attente d'automatisation.
Sujets support:
===========
CMS:
===
- Installation du BQS jobmanager et l'impact sur le CE cclcgceli02 et celi06: bug depuis
ne parvient pas à écrire dans le syslog. s'apparent à un trou noir d'Atlas. lié à un pb récurrent- encours.
- Transferts lents T1-T1 : relatif à un pb récurrent - encours.
- Jobs slows : liés à un pb récurrent
- Erreurs sur les jobs de production : lié à un bug d'Atlas, fen cours. support contacté.
- dcache arrêt : traités précédemment.
CMS :
====
- dcache arrêt : traités précédemment.
- Jobs failed pour cause de librairies manquantes sur quelques WN :xorg-x11-Mesa-LibGlu. pb ponctuel et ticket réglé. Arrivé 2 fois depuis Juillet 2008.
- FTS transfers surchargée : même symtômes qu'Atlas.
Alice:
===
ras
Atlas:
===
ras
VOMS:
====
DB signale une installation retardée des nouveaux VOMS.
==================
Nouvelles des équipes du CC
==================
sysunix : ras
support :ras
developpement : ras
exploitation: ras
stockage : réunion stage-in pour les données du LHC le 30/01/09. 15h30 Galette SUN.
Besoins pour le SYMOD : Séminaire SYMOD nécessaire pour faciliter la récolte des besoins des divers services, car une vue d'ensemble est manquante.
Nouvelle embauche : 1 embauche en cours pour le CIC portal pour l'équipe développement.
==================
Etat des projets Grille
==================
EGEE : ESRF certifié aujourd'hui. Ils ont une monbox déclarée : le site est en production mais en probation pour une semaine pour tester tous les SAM tests.
EGI-DS : Le résultat des candidatures pour le 2 Mars.
IdG : le livre blanc est en cours - travail prospectif de la grille nationale.
LCG : la partie dédiée à LCG dans la GDA est supprimée profit du daily meeting - proposition du 21/01/09.
==================
Affaires administratives
==================
YC : workshop irods le semaine prochaine au CC
OA : absent le 02 fev.
==================
Divers
==================
Grève du 29/01/09 :
Grille : PG présent le matin, DB la journée. Suggestion de mettre un downtime at risk pour la journée [PG] mettre un SD jeudi si au moins 1 personne n'est pas présente jeudi.
Il y a un compte-rendu associé à cet événement.
Les afficher.