Sujets Exploitation+Stockage:
----------------------------------
Sujets Support:
-------------------
Alice:
------
* Nothing to report.
Atlas:
------
* Nouvelle VO box (cclcgatlas04): cette VO box est installee mais il y a des problemes avec le renouvellement de proxy. Pierre Girard est le principal interlocuteur de ATLAS (Eric Lancon) et aide avec ca. Pour l'instant ATLAS n'est donc pas passe a l'utilisation routiniere de cette VO box et continue a utiliser cclcgatlas02.
* AFS: des problemes de surcharge sur le serveur ccafs08 qui abrite les releases RW de ATLAS. Identifie comme etant du a des releases non repassees RO jeudi dernier. Une autre surcharge a ete identifie comme etant du a des jobs d'utilisateurs, pouratnt en petit nombre. Les releases encore non repliquees l'ont ete (sauf une, ouverte pour passer des patchs).
* Tests Oracle a venir: une nouvelle campagne de tests va etre organisee sur les clusters Oracle. Eric Lancon et nous (Ghita et moi) avons discute les grandes lignes cette semaine. Plus de details suivront.
* probleme-VO dans Elog: pas d'ameliorations pour le probleme recurrent de Atlas concernant l'installation de Athena (cf. http://cctools2/elog/problemes-VO/60?). Alessandro (notre contact au niveau de ATLAS) a lance des tests hier soir mais les CEs etaient Off. Nous avons demande a faire les tests nous-meme mais pas de reponse positive (trop delicat a mettre en oeuvre).
CMS:
----
* Many slow jobs: issue to access to input data. The data in question corresponds to a dataset of ~14TB. Base on Lionel investigation, the jobs have submitted their requests to dCache during HPSS downtime. These requests have been suspended in the poolmanager. When HPSS has been back, queues were released on the pools but not on the pool manager.
* Other few slow jobs: test jobs of new functionality on the cmssw release. The prod people have submitted this kind of jobs aimimg to test the release.
* Probleme-VO dans Elog: update of the CMS SAM test issue (cf. http://cctools2/elog/problemes-VO/63?):
- Based on the priority provided by Nadia, the SAM jobs should bypass all the other jobs (SAM job priority is the highest)
- If Farida notices any issue in getting the SAM test running she will notify Nadia.
LHCb:
-----
* Depuis le 28/4/2009 des jobs souffrent d'un problème de 'connection timeout' (ticket GGUS en cours : http://cctools2.in2p3.fr/xoops/modules/xhelp/ticket.php?id=10640). Il s'agit de jobs de 'merging' :
"I have created 9 test MC09 merging production with the following parameters:
Conditions tag: "sim-20090402-vc-mu100",
DDDB tag: "head-20090330"
LHCb Version 26r3
LHCb Opts 'PoolCopy.opts'
These productions are taking data from productions 4670->4662 with the number of input files required to take the output data file to just over 2GB. This should allow us to see if there are any performance variation with varying input files and to determine whether the wall clock time per event is equivalent."
Nous essayons de réproduire l'erreur pour résoudre le problème avec les dcachemasters.
Autre problème: Il y a eu un test d'analyse aux T1s et on a des mauvaises performances en termes de CPU efficiency et de Wall Clock time pour le processing d'un événement (voir elog de LHCb http://cctools2.in2p3.fr/elog/support-lhcb/)
Problèmes récurrents:
-------------------------
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache