Sujets Exploitation+Stockage:
----------------------------------
Lundi 20/04 : Problème robotique
Jeudi 23/04 : Changement VOBOX alice
Problème xrootd bloquant atlas099
Sujets Support:
-------------------
Alice:
======
* Last Sunday, there was a general failure of a SE at Clermont. For this reason, 35 jobs were not terminated properly.
Atlas:
======
* VOBOX: cclcgatlas03 sera rendue aux admins le 29 Avril.
* nettoyage fichiers dCache: pour préparer la migration vers les THORS, les dcache ont envoyé une liste de fichiers qui n'ont pas été accédés depuis
plus d'un an. Nous avons envoyé un mail aux expériences pour leur demander de répondre avant le 11 mai sur l'effacement ou la conservation de ces fichiers. Sans réponse de leur part, le nettoyage se fera.
* Message d'erreur "globus error 10": discussion Pierre G. et Eric. Le nombre de ports ouverts sur cclcgatlas02 est dans l'intervalle 30000 à 31000. Vu l'accroissement du nombre de jobs envoyés il a été observé une saturation et des inefficacités de jobs liées à cette saturation. Extension du GLOBUS_TCP_PORT_RANGE entre 30000 et 35000.
* Pic d'activites SRM Atlas observé pendant la soirée du 21 Avril. Le nombre de requêtes a atteint 7000 alors qu'il tourne habituellement autour de 100 à 150. Après analyse par Jonathan il semblerait que cela soit dû surtout à une forte activité du coté des transferts FTS. Résumé dans http://cctools2.in2p3.fr/elog/dCache/102.
* Problème xrootd: saturation de la carte réseau du serveur xroot (ccxrdsn022) dû à un bug dans la version de root 5.18. Ceci implique des lenteurs, la limitation a ~300 de la ressource u_xrootd_lhc et des jobs qui plantent sur des dccp time out. Bug corrigé mais nous attendons de voir si le trafic sur le serveur décroit avant d'augmenter la ressource u_xrootd_lhc a nouveau.
CMS:
====
* On new voboxes cclcgcms04 and cclcgcms05, the PhEDEx software has been installed and tested. PhEDEx is now running on cclcgcms04.
* Last week, the CMS activities were run smoothly, no important issue has been seen. The issue with the reprocessing jobs detected on Friday 17th April was due to the CMS software itself.
LHCb:
=====
* Last but not least: Luisa is back :)
Problèmes récurrents:
-------------------------
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache