Sujets Stockage:
-------------------
Sujets Exploitation:
------------------------
Jobs lents de CMS
Sujets Support:
-------------------
CMS:
====
* Probleme avec dCache. Farida fera le point durant la reunion.
Atlas:
======
* Jobs Atlas:
- ATLAS a lance une campagne de reprocessing le 23 decembre (!! eh
oui).
Pour info, pour cette campagne, les jobs tirent les donnees de dCache et
pas de HPSS. Nous n'avons pas note de bloquage pendant les vacances, ou
le flot de jobs restait a un petit niveau (~600 jobs running).
Nous avons toutefois note que les jobs demandent beaucoup de memoire
(ces jobs travaillent sur des vraies donnees du detecteur qui ne
reflettent pas les vraies donnees de detecteur en mode de collision du
LHC). La memoire monte jusqu'a plus de 2.88 GB, le maximum de tolerance
de BQS pour les jobs de ATLAS. 2.9 GB est en principe OK pour absorber
les jobs de ATLAS, ce n'est pas BQS qui est mal configure, mais plutot
les jobs de ATLAS.
Ces problemes de memoire ont en particulier crees des cores sur les
worker nodes. Nous sommes en contact avec Bernard Chambon pour cela.
Comme tous les jobs de ATLAS sont "les memes", nous avons aussi eu des
problemes de charge :
nous avons augmente le nombre de jobs en execution hier vers 13h00. D'ou
(je suppose) l'apparition des problemes de charge.
- dcache : un fichier necessaire a tous les jobs (qui donnent des
donnes pour les calibration) a ete accede un tres grand nombre de fois,
ce qui a surcharge le pool hebergeant ce fichier. Lionel a fait 15
repliques a la main pour palier le probleme.
Question : est-ce qu'il y a eu un probleme dans le mecanisme de
replication automatique de ce fichier ?
- release ATLAS : la release utilisee pour le reprocessing a ete
installe le samedi 20 decembre et n'a pas ete replique (le mecanisme de
replique automatique n'est pas mis en place encore et personne n'a
averti afsmaster de cette installation). Aujourd'hui un grand nombre de
jobs ATLAS tournait et le serveur AFS servant cette release a ete
surcharge. Xavier est en train de faire un copie RO et la replication.
Probleme compris et en passe d'etre resolu.
* Disparition de fichiers dans dCache juste avant l'arret de Noel.
Atlas ne connait pas la raison de la perte de ces fichiers. Cela
montre la necessite de faire un scan de tous les fihciers dans dCache
pour voir lesquels ont disparu et essayer d'en comprendre la raison.
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache