Sujets Exploitation+Stockage:
----------------------------------
Un serveur de données xrootd est devenu passif suite à des requêtes en mode dccp bloquées à cause de l'indisponibilité de Dcache Jeudi 9 avril.
L'utilisateur atlas099 qui tentait de rapatrier des fichiers depuis ce serveurs via xrdcp voyait tous ses jobs échouer.
Le kill des process dccp a suffit a remettre le service UP.
Les jobs d'atlas se sont ensuite bien déroulés.
La contribution "Stockage" est arrivée après la réunion, la voilà:
- Lundi 20 mars : Un incident robotique a fortement perturbé le fonctionnement de HPSS (incident traité par l'exploitation). Les montages bande étaient blocké, mais les accès disques était encore possible. La situation s'est débloqué vers 23h.
- MIGRATION HPSS 6.2:
Un date a été arrêté pour la migration de HPSS 5.1 vers HPSS 6.2. Cette migration se fera du 1er au 4 juin 2009. Cette date tombant pile au milieu des exercices CRC 09 (aka STEP 09) des expériences LHC, nous attendons une confirmation de leur part. Fabio a contacté les personnes responsables à ce sujet.
Cette migration sera un opération assez lourde. Dès la semaine précédente, l'accès a HPSS sera réduit. Le système sera complètement inaccessible pendant 4 jours (1/06 -> 4/06). La remise en production sera très progressive. La totalité des caches disques étant purgés, chaque accès de fichier nécessitera un montage bande.
Sujets Support:
-------------------
Atlas:
******
- installation sur cclcgatlas04 (vobox) de Apache, Condor, mysqlclient. Reste à installer Panda avant de rendre
cclcgatlas03 aux sysadmins.
- fin du reprocessing des données cosmiques de Atlas. Le reprocessing s'est étalée entre le 1er et le 9 avril
et s'est bien déroulé. Les 67 TB de données avaient été stockées sur disk pour ne pas stresser HPSS.
- Probleme avec l'installation d'Athena toujours en cours (http://cctools2/elog/problemes-VO/60).
Alice:
******
- Alice moved to new vobox (cclcgalice02) and everything works. The old VO-box (cclcgalice01.in2p3.fr) can be recycled. The switchover was done without draining the running jobs.
LHCb:
*****
- Pb avec dCache resolu (srm-bring-on-line) et la solution a ete validee par LHCb le 15 avril (http://cctools2/elog/problemes-VO/62).
CMS:
****
No major issue to report, just the following ones concerning the reprocessing jobs:
* Slow jobs: some jobs have not managed to access to their inputs data, even if the files are online, and in same cases replicated in several pools. The list of the files are sent to the dcache master.
* Some jobs faced the following error while reprocessing their data: Server error message for [2]: "Unexpected Exception : java.lang.InterruptedException: IO Job was killed" (errno 33). !!! LibDCAP Debug Level modified by error recovery procedure !!!
* Since Friday 17th, several jobs failed due to the issue [*]:
- After some investigation with the help of Nadia and Susanne, it seems that the issue is not due to our infrastructure installed on the WNs, but to either the data structure or the CMSSW itself.
- The prod people are not happy with this explanation and they still consider the issue open. They will perform some test to be sure 100% that the issue is due to us.. So let's wait for hearing from the result of this test to take anther consideration to solve the issue..if any ....
[*]
Python/ShREEK/MonitorThread.py", line 159, in run
File "/usr/local/lib/python2.4/threading.py", line 348, in wait
File "/usr/local/lib/python2.4/threading.py", line 227, in wait
exceptions.ValueError: list.remove(x): x not in list
Unhandled exception in thread started by
Error in sys.excepthook:
Problèmes récurrents:
-------------------------
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache