Sujets Stockage:
-------------------
Sujets Exploitation:
------------------------
Arrêt SRM du lundi:
SRM core servers to be changed.
FTS file transfers from or to IN2P3-CC impossible during this downtime.
La ressource u_dcache_egee a ete drainée à cause d'un arrêt par erreur des pools correspondants.
Mercredi 28 Janv
Forte charge coté HPSS. Cette charge est du à l'action conjointe de différents utilisateurs/groupe et à une activité de staging coté dcache.
La ressource HPSS est donc maintenue volontairement basse le temps que la charge se résorbe.
Jeudi 28 Janv AP : incident robotique grave
Ds l'AP...Un robot bloqué vers un lecteur. Appel SUN et Draine HPSS à 17h38 : Blocage aussi de la librairie SL pour DIVA car impossible de monter des LTO.
Ressources liberées vers 1h du matin, mais limité a 600 car il y a toujours des erreurs cote hpss. Le robot revient.
Vendredi 29 Janv.
HPSS a été redémarré pendant la matinée et les ressources Dcaches ont été drainées pendant cette période.
Les 2 services ont été disponibles de nouveau en fin de matinée.
La ressource HPSS a été augmentée progressivement pendant le week end.
Des jobs de CMS ont été bloqués ~800 et détectés lents par BQS car les requêtes de staging de dCache depuis HPSS étaient suspendues.
Elles ont été libérées Dimanche.
Sujets Support:
-------------------
ATLAS:
======
* Jobs d'analyse:
nous avons deja eu dans le passe et encore ce matin des jobs d'analyse
qui ne consomment pas du tout de CPU: ils font un "sleep 9600" en debut
de job. Ce probleme semble lie a un soft de soumission des jobs grille
utilise dans ATLAS (GANGA). Un expert GANGA a ete sollicite pour
regarder le probleme.
* Problemes de transferts:
(David peut developper si necessaire)
Le port solicitee de la nouvelle machine FTS etait ferme ce qui faisait
que les transferts plantaient si ils arrivaient sur cette machine. Comme
3 machines sont en place avec du load-balancing, ce probleme allait et
venait. David a fixe ca aussitot que cela a ete remonte au CC.
* Erreur LFC dans les jobs ATLAS :
depuis 3 semaines, les jobs atlas etaient episodiquement (~1 p;auqet de
jobs chaque semaine) echoues avec l'erreur "Get error: Could not get
LFC replica: -1 (lfc_getreplica failed for guid...". Cette erreur a ete
remonte a un probleme dans la gestion des proxy (la commande utilisee
pour verifier la validite du p[roxy en debut de jobs "voms-proxy-info
-exists -valid 24:00" ne marche pas), pas du LFC. Le bug doit etre
maintenant fixe mais pas dans une release de production.
* Scan de dcache (dcache masters):
le scan de dcache des fichiers atlas a revelle 71540 fichiers perdus sur
5.668.588 fichiers Atlas en tout dans atlasdatadisk, atlasmcdisk,
atlasgroupdisk, atlaslocalgroupdisk et atlasuserdisk. Le nettoyage de
ces fichiers sur /pnfs, LFC et ensuite dans la DB atlas centrale est en
cours. Cela devarit nmous eviter les problemes recurents de jobs de
production ATLAS pendus car ils cherchent des vieux fichiers perdus.
CMS:
====
* Issue with small file sizes (~20MB) affected the transfers, and that has an impact on HPSS
was fixed by cleaning up the datasets that contain whose files.
The reprocessing of these datasets has been started beginning of this week, after applying the patch in the ProdAgent (CMS production system).
to correct an issue on the merge step.
* The door of the new FTS machine (that was installed) was closed, this disturbs
the transfers that call that door.
LHCb:
=====
* Nothing to report.
Alice:
======
* No report received.
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache