Sujets Exploitation+Stockage:
----------------------------------
* migration plateforme par defaut vers SL5 : plus de plateforme newLINUX dans le
batch.
Les problemes du debut de semaine ne sont plus.
Les ressources sont à nouveaux à leur bonne valeur
* LUNDI 23 : des racks de machines (ccwl1348 -> ccwl1467) doivent etre arretes.
Les Machines seront deja qstoppees par un job le dimanche matin.
C'est pour migration de machine SL4 en SL5 + transfert a Montpellier
Sujets Support:
-------------------
_CMS_
Wrong deletion incident at CCIN2P3 **********************************
- The incident happened during a cleanup of orphaned files and was triggered by a misinterpretation of unclear and inexplicit instructions by Data opeartion team on the part of Farida.
Impact
*******
- The deleted data volume was around ~500TB
* ~ 100 TB non-recoverable. A very high fraction of them was MC.
- All the datasets were already invalidated, since they were only at CCIN2P3
* ~ 400 TB recoverable
- SAM and JobJobot tests
* The SAM and JobRobot datasets were deleted in this incident thing that caused the test failures.
- Both custodial and no custodial data were impacted by this incident. The dimension of this incident is large, the efforts of restoring the site, as was before, has been started.
- The consistency between the data published in the CMS data management systems and the one located physically at CCIN2P3 is the highest priority to be restored, it is expected to finish today.
Hardware issues: ****************
- Hardware issue on the pools that contain the export data of the LoadTest. Almost all the export channels were affected by this incident. - Same issue was identified on the dcap and gridftp servers. Hardware issue fixed. - CREAM CE: some issue was idenfitied when tested it, work is going on. Pierre mentined that the publication will be soon .
_LHCb_
1) Toute la chaîne de reconstruction et de transfer a bien marché sur les premières données faisceau et de
collision.
"After just one hour (56 minutes) since the first p-p collisions have been seen at the pit 8, data was happily
reconstructed in the Grid and available in the LHCB Bookkeeping. This is a definitely very impressive
achievement considering that in this time data was shipped from pit to CASTOR,migrated to tape, registered into
catalog, shipped to T1 reconstruction jobs created and submitted and managed to run all, fully automatically."
2) Investigation en cours sur la modalité de connexion cliente_active ou cliente_passive entre les workers et
les pools dcache par les jobs lhcb. La modalité cliente_passive peut créer des problèmes d'accès aux fichiers.
_Atlas_
*** premieres donnees du LHC (non muon cosmiques) depuis vendredi soir; reception (T0, T1) et distribution (T1 et T2) sans problème. Quelques serveurs de dcache sont restées en panne après une MAJ mais cela n'a pas impacté ces transferts. Les serveurs ont pu être remis en fonction.
*** depuis passage sur la ferme SL5, tres grand nombre de jobs executes, avec une tres grande efficacite (~1-2% d'erreur en continue, sur le T1 et le T2)
Il restait un problème pour avoir la liste des tags de tous les releases du software de Atlas dans les CEs du T2. Cette liste a été mise à la main et du coup, la plupart des jobs du T2, y compris utilisateurs, va dans les WN SL5.
*** Utilisation de la base de données Oracle. Une mauvaise configuration des softwares faisait que les jobs qui tournaient dans le nuage français devaient utiliser squid, donc se connecter à un SQUID distant a PIC, FZK ou au LAL, ce qui est peu efficace.
Nous avons manuellement change ces parametres dans les releases pour que les releases utilisent par defaut Oracle et n'aille plus se connecter a un server squid distant. Voir http://cctools.in2p3.fr/elog/support-atlas/126
*** Distribution des points d'execution sur les WN: Pour que la plateforme Anastasie soit plus reactive à des jobs d'analyse qui arrivent par paquet et anarchiquement, une idée est de distribuer les points d'exécution en excluant les class T de certains WN. Ainsi, ces WN auraient des jobs plus courts et pourraient ainsi avoir un renouvellement plus rapide des jobs. Ceci est en discussion.
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache