Sujets Exploitation+Stockage:
----------------------------------
** Lundi 5/07
Sortie du rack SL4 pour migrationen SL5
Les sylinux travaillent sur un rack (mis hors prod sr demande) pour mise à jour sur les composants suivants
- le kernel
- la version d'openAFS
- la version de GPFS
- les paramètres du noyau
car visiblement la solution nouveau kernel+paramétrage du noyau a prouvé sa stabilité (aucune machine crashée en
plus de 3 semaines de test, sur un rack).
La mise à jour se fera progressivement, au fur et à mesure des plantages des machines
15H00 : Incident de clim au CINES
15h10 : La procédure d'arrêt d'urgence des workers s'est déclenchée automatiquement.
Tous les racks sont été ensuite sortis avec takeoutWorker
Pbm FCR ALICE persistants la sonde est en erreur depuis 3 jours. Dmde d'explications en cours.
** Mardi 06/07
ATLAS les jobs dans le cadre de l´exercice de prestaging de ATLAS commencent a etre lances.
Il y a timout ábord un petit nombre de jobs qui tournent, juste pour
tester la machinerie. Le gros sera lance apres.
L'évolution en onction du temps du nombre de jobs de prestaging qui tourne ici (histogramme vert) :
http://gridinfo.triumf.ca/panglia/graph-generator/?SITE=FR&TASK=reprocessing&TIME=day&SIZE=large
Mise hors prod du rack SL4
** Mercredi 07/07
Relance ALICE par rapport aux tests FCR qui plantent depuis longtemps
Possibilité d'arrêter 3 racks dell_lcp00 - 01 -02 en vue de réduire la consommation en clim
pour un week end trés chaud validée en CD. Toutes les VOs LHC sont d'accord pour cette réduction
de puissance quise justifie par le fait que ces derniéres semaines les workers sont sous-utilisés.
Racks stoppés.
** Jeudi 08/08
vladimir.kulikovskiy@ge.infn.it a des jobs trop courts. Mail + réponse
Sorry for that. Actually I was quite confused - when I do local tests, job runs during 40sec (when data file was
downloaded before from SRB). But when it launches through batch, it takes much more time (maybe downloading from
SRB eats all the time).
I'll be more careful.
> Hello,
>
> Yo have submitted about 7000 jobs these last 2 days. All of them are failling used about 40 sec UI.
>
> They seems to ask for files from SRB without specifying the resource SRB at submission:
>
> Root directory set to ANTRS_ROOT = /afs/in2p3.fr/home/throng/antares
> 22 You are using the prod version of the SRB utilities.
> 23 24 ANTARES environment : host = ccwl9176 system = Linux
Préparation de l'arrêt du 21/09
https://cctools.in2p3.fr/operations/wiki/doku.php?id=arrets:arret21092010
** Vendredi 09/09
Les jobs de lsst ne rentrent pas. Ils ont consommé leur quota CPU ++.
Je leur ai demandé de faire passé une demande de CPU supll par ticket.
Takeout effectué à cause de : scratch full - lenteur.
Machine(s) concernée(s) : ccwl1181
Les racks suite à une forte activité de ATLAS ont été remis en prod suite à confirmation
par sysadmin qu'il n'y a pas de risque à mettre en péril la SM.
FCR alice - réponse
"France and hence CC is in Nagios, but not yet
fully in production, but in validation, so no problem"
ces tests on donc du sens, mais etant en validation, le mieux est que l'exploitation n'en tienne pas compte
jusqu'a nouvel ordre.
Sujets Support:
-------------------
Problèmes récurrents:
-------------------------
AT Grille généralement:
----------------------------
- CE, BDII, VOMS...
- SE, FTS, LFC, SRM, dCache