Sujets Exploitation+Stockage:
----------------------------------
* lundi : probleme AFS avec jobs d0. Il y a du avoir un probleme de charge. Les clients AFS restent pendus (300
connexions "fantomes") bien que les jobs ont été tués et le fileserveur redémarré (du au cache des workers)!!
-> blocage de D0
* Mardi:
- Arret
- En soirée : réouverture progressivede D0
* Mercredi
- Petit probleme RFIO
-> coupure HPSS de 10:30 à 13:00
* Jeudi
Atlas soumet toujours avec les ressources erronées (xrootd alors qu'ils utilisent dcache)
crash machine ccexpl -> vu que le lendemain
Impact de cette coupure:
Environ 22h d'interruption des services suivants:
- checkWorkers
- lhcalert
- mis à jour OVAX
- insertion de données dans OVAX
...etc
ccsrm02 tombe
* Vendredi
- ccexpl: bacullemenent vers machine de spare (ccsvli23). Penser à rebasculler dans l'autre sens la semaine
prochaine.
- Beaucoup de jobs slow d'Alice
Sujets Support:
-------------------
_ATLAS :_
=========================================================================================
Transferts lents de BNL vers IN2P3
=========================================================================================
Les transferts depuis BNL de fichiers de l'ordre de 4GB prennent environ 2.7MB/s ce qui est très lents.
De toute evidence, ce ne sont pas des problèmes liés au réseau.
Olivier continue à investiguer
=========================================================================================
Changement de ressources Analyse T2 Atlas
=========================================================================================
La ressource d'analyse T2 (u_xrootd_atlas) est devenue u_dcache_atlasT2 : utilisation de dcache, abandon de
xrootd. Xrootd reste disponible pour l'analyse via PROOF
=========================================================================================
Transfert Lyon<->Tokyo
=========================================================================================
De nombreux echec pour ces transfert ces deux derniers mois. Une machine a été identifiée comme responsable sans
pour autant savoir pourquoi. Elle sera remplacée, et le diagnostic sera recherché offline.
_CMS :_
SAM test:
- Errors detected by SAM test jobs are impacted the site Readiness. - These errors were seen on 7th and 11th June. Lionel and Evan are aware of this, but they believe that
it could be due to a temporary issue on the VOMS server at CERN.
_ALICE :_
nombre important de slow jobs ALICE a chaque production massive, ce qui crispe (a juste titre) l'exploitatioin.
beaucoup d'entre eux sont lents de par la non-reponse ou lenteur d'acces aux donnees sur stockees certains sites.
je developpe un script de monitoring pour essayer de faire une statistique de ce genre de probleme.
_LHCb :_
- Les Afs Masters ont changé le type et la version du serveur contenant le toolkit de lhcb.
Il n'y a plus eu de timeouts des jobs depuis, mais les tests SAM indiquent toujours une lenteur d'accès à la
software area. Plus des détails dans le ticket :
https://gus.fzk.de/ws/ticket_info.php?ticket=58283
Problèmes récurrents:
-------------------------
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache