Reunion AT grille du 12 Mai 2009

Présents : SP, JS, DB, YC, PG, HC

Sujets Exploitation:
------------------------
Ras à l'exception de l'arrêt du CC du 03 Mai et de la capacité de production réduite suite à l'alerte clim du 6 Mai.

Sujets Support:
--------------------
--Alice : en attente des résultats d'investigation par Alice
--Atlas/Cms: 
- montage pnfs  sur les VOBox systématique lors de l'installation de nouvelles VO Box : Problème ponctuel réglé par Pierre Girard et FAQ mis à jour. Seul Pierre procède à ces installations.

- jobs en RUNNING lors de l'arrêt du rack le 06/05/09 puis "SLOW" le 07/05/09 :
Problème ponctuel réglé par :
1/la consigne dans la procédure d'urgence de passer l'option "-f" pour forcer l'arrêt des jobs lors de l'arrêt électrique de machines [SP]. 
2/la consigne pour le support de regarder  " manuellement" les "jobs slow" le lendemain d'arrêt électrique  pour le signaler à l'exploitation [YC] en attendant 
3/l'écriture d'une sonde Nagios  détectant un seuil anormal de job slow [MH].

- Tests oracle : info

- Nouvelle configuration  : demande de serveur xrootd  en date du 24/04/09 à suivre car ce  dernier doit être operationnel pour STEP 09  : 
http://cctools2/elog/problemes-VO/?id=70

- Atlas installation Athena [Atlas] #54 toujours en cours suite à test d'Alessandro di Salvo.

- Atlas et surcharge de serveurs AFS : 
[Atlas] #65: surcharge serveur AFS (production Atlas). Lie au #60. Probleme resolu avec la replication de la release en question. Ce processus doit être automatisé et sécurisé par #60.

En attendant, la réplication de la release doit être demandée au coup par  coup par Atlas - passage de RO en RW - pour éviter  la surcharge des serveurs AFS - et qu'Atlas soit lui-même pénalisé.

--CMS :
- transfers to CCIN2P3: le pool "ccdcatsn070" donne le message d'erreur suivant:
TRANSFER error during TRANSFER phase: [GRIDFTP_ERROR] globus_ftp_client: the server responded with an error 451 Operation failed: FTP Door: got response from '[&gt;pool-cms-hpssdata sn070a@ccdcatsn070Domain:*@ccdcatsn070Domain:*@dCacheDomain:SrmSpaceManager@spaceManagerDomain:*@spaceManagerDo
main:*@dCacheDomain]' with error com.sleepycat.util.RuntimeExceptionWrapper: (JE 3.2.76) Channel closed, may be due to thread interrupt

Le problème se produit depuis longtemps et n'est pas identifié; il est réglé par un redémarrage par cron de ce pool. Voir si le problème est reproductible après le passage à la dernière version de dcache cet été avant de le signaler éventuellement à dcache.org

- les tests spécifiques cms : l'attribution de nouvelles priorités à cmsgrid semble avoir résolu le pb depuis fin Avril. Le pb récurrent [CMS]#69 est fermé.

--Lhcb
Lhcb « connection time-out » [Lhcb]#71 en cours
Lhcb diagnostic des essais d'accès aux données  [Lhcb]#72 ouvert

--Problèmes récurrents autres
Generic robotic hardware failure http://cctools2/elog/problemes-VO/64 :
En cours d'identification et necessité de prendre de nouvelles traces lors du prochain arrêt début Juin ( A confirmer par l'exploitation)

Proxy expiration : Gestion des jobs http://cctools2/elog/problemes-VO/67
Voir avec Bernard Chambon
Pool mapping http://cctools2/elog/problemes-VO/57
voir avec NL pour estimation du nombre de comptes demandé

--AT Grille généralement
glexec : installation locale sur les wns en prod pour lhcb ( IN2P3-CC site pilote). Pierre demande à ce que l'exploitation le prévienne lors du redémarrage des machines ( suite à l'arrêt du 06 Mai). Le script d'installation de nouvelles machines comprendra ce somposant:

Le resultat semble peu concluant pour LhCB qui a fait un retour par RS. Pierre doit faire une liste de bugs détaillée, mais en substance, le retour sur le fait de ne pas mettre en production glexec rapidemment est remonté à Fabio pour le GDB du 13 Mai. Le déploiement et le fonctionnement de se composant seulement sans parler de scas n'est pas concluant pour lhcb et le CC.
Cependant l'ouverture à US-Atlas est prévue pour une utilisation de scas en l'état.


--A Venir
Arrêt prévu du batch le 19 mai  (suite à coupure clim de plus d'1h)
Arrêt HPSS prévu la première semaine de Juin. Possibilité pour Sun d'intervenir pour effectuer une nouvelle prise de logs afin de régler le pb robotique ( incidents d'Avril) apparamment liés au microcode.

-- Etat des projets Grille
EGEE-LCG : RAS
EGI-DS : RAS
IdG : RAS
Grille Régionale :  
Serveur IRODS au CC pour la grille regionale en phase finale de test par 4 groupes de chercheurs de Creatis. Demande officielle au CC pour que ces données soient sauvegardées et que le serveur IRODS passe en production.

Projet régional qui démarre cette semaine : Laboratoire biomédical lié à Creatis. Yonny donnera plus de nouvelles à la prochaine réunion.
--Formation
Prochaines formations organisées :
    10-15 mai : Biomed Grid School, Varennes, Italie
    8-19 juin : Ecole d'été 09 CEA-EDF-INRIA, St Lambert des Bois
    5-17 juillet : Ecole d'été ISSGC'09, Sophia Antipolis
    28-29 juillet : EGEODE, Villefranche sur Mer
Formations en cours d'organisation :
    Formation utilisateurs, d'ici mi-juillet, vraisemblablement sur Paris
J'attends des confirmations / demandes de David W., Monique P.
    Formation administrateurs gLite
En cours de discussion, notamment avec Healthgrid. (Rolf et Pierre sont au courant)

--Workshop scientifique au KEK au Japon le 19-20-21  Yonny présente la collaboration  dans le cadre LIA  portant sur   1/ glite/Nareggi: interoperabilité avec Jsaga et  2/ Irods

--
LCGFR 18/19 DB, CO, HC
FJKKPL 19/21 KEK YC
Congés du 22 au 29 conges YC.
Congés 22/05/09 PG, HC