Réunion jointe Opération + AT Grille
mardi 21 juillet 2009 -
16:00
lundi 20 juillet 2009
mardi 21 juillet 2009
16:00
Incidents et problèmes des VOs (CC, sites français, autres sites)
-
Tous
Incidents et problèmes des VOs (CC, sites français, autres sites)
Tous
16:00 - 16:30
Room: 322
Sujets Exploitation+Stockage: ---------------------------------- - Suite aux travaux d'installation des racks réfrigérés, nous sommes toujours a 61% de notre capacité de calcul, j'attends des informations sur le retour éventuel de machines. - hpss : beaucoup d'incidents sur les lecteurs (surtout les T10KB). les serveurs rfio sont toujours très instables. - incident en cours pour l'accès aux fichiers dans hpss via xrootd : le compte xrdmgr ne semble plus avoir les droits nécessaires pour lire les fichiers de certains groupes du style babar, hess etc... qui ont leurs fichiers protégés en lecture pour les utilisateurs qui ne font pas partie de leur groupe (xrdmgr qui tourne les démons xrootd est membre d'un certains nbre de groupes dans HPSS). affaire à suivre... - beaucoup de jobs "slow" pour cmsf le 17/07 : problème de soft cmsf - beaucoup de jobs "slow" pour atlas ce weekend : utilisation d'une nouvelle version de soft, version non répliquée. Apparemment atlas ne respecte pas la procédure mise en place par Xavier (cf mail de Fabien). - un rack de worker en SL5 est accessible dans la ferme anastasie. Pierre travaille sur la mise a disposition d'un CE poursoumettre des jobs grille sur ces machines. Sujets Support: ------------------- ATLAS ------- * VO box cclcgatlas04 jobs unsubmitted - RESOLU - problemes pour envoyer des pilotes a partir de cclcgatlas04 : les jobs restent dans l'etat unsubmitted indefiniement - probleme resolu avec l'addition d'un parametre de configuration qui permet d'envoyer plus de jobs aux CEs GRIDMANAGER_MAX_SUBMITTED_JOBS_PER_RESOURCE=5000 pour plus de details : http://cctools2.in2p3.fr/elog/support-atlas/70 * installation automatique des releases - EN COURS - des incidents de surcharge afs par des jobs attaquant des volumes non repliques sont reccurents - non replication car pas de demande explicite du cote de ATLAS et la procedure automatique d'installation des releases pas en production. * reprocessing de donnees cosmiques (mercredi 8 juillet -> jeudi 16 juillet) - FINI - ce reprocessing n'etait pas un exercice; - nous avons fait un assez mauvais reprocessing (nous avons processe moins de la moitie des jobs qui nous etaient attribues au total, le reste des jobs ayant ete redistribues au fur et a mesure a d'autres T1s car nous etions lents) - analyse succinte de la lenteur : nous avons eu un probleme avec TReqS des le debut du reprocessing, celui-ci ainsi sans doute que d'autres problemes (pools pleins avec fichiers sticky) ont engorges le systeme et tres peu de lots de fichiers ont ete prestages les premieres jours du reprocessing. ATLAS a en quelque sorte recommence les staging de zero le dimanche soir et cela a desengorge le systeme petit a petit. Mais cette action a pu avoir des effets de bord dont nous ne sommes par certains. A ne pas prendre donc comme une recette miracle. - un probleme moins impactant mais embetant : des bandes contenant des fichiers pour le reprocessing etaient "bloquees" et les fichiers ont ete demandes jusqu'a plus de 20 fois sans warning. pour plus de details : http://cctools2.in2p3.fr/elog/support-atlas/74 * VO box cclcgatlas04 renewal de proxy - EN COURS - probleme d'instabilite dans le mecanisme de renewal de proxy rapporte la semaine derniere par les utilisateurs de cette VO box - probleme remonte a Pierre Girard CMS: ------ << Support Exploitation Services Suivi des opérations support-general support-atlas support-cms support-alice support-lhcb Logbook du support CMS Non identifié Liste | Créer | Modifier | Supprimer | Répondre | Dupliquer | exploitationastreinteHPSSAnalysedCacheevenementssupport-generalsupport-atlassupport-alicesupport-lhcbproblemes-VOlogonoperations-HPSSoperations-dCacheoperations-LFCoperations-FTSoperations-CEoperations-SIoperations-VOBOXoperations-MonBOXoperations-Grilleoperations-NAGIOS | exploitationastreinteHPSSAnalysedCacheevenementssupport-generalsupport-atlassupport-alicesupport-lhcbproblemes-VOlogonoperations-HPSSoperations-dCacheoperations-LFCoperations-FTSoperations-CEoperations-SIoperations-VOBOXoperations-MonBOXoperations-Grilleoperations-NAGIOS | Chercher | S'identifier | Aide Numéro de message: 78 Heure de l'entrée: lun 20 jui 2009 16:38:41 CEST Auteur: ffassi Type: logbook Categorie: bilan Sujet: Weely's report - No issue to report, everything run smoothly last week - Excellent site readiness and availability (please see attached plots) - More than 1300 slow jobs appeared at CCIN2P3. It turn out that the slowness of the jobs is due to the use of the CMSSW release 3_X_X. -Dashboard shows more than 15000 failed jobs at CCIN2P3 due to the application problem. - To prepare for importing from CERN, the pool buffer was increased to 60TB to accommodate the 142TB of the incoming custodial data of Cosmic. - For the current backfill test, Treqs was integrated into the disk pools from where the jobs get their output. So, once the job ask for it input Treqs take care of staging it from PHSS. Treqs is used automatically to pre-stage the files to serve them to the jobs. This activity is overlapping with many other LHC VOs activities, that use Treqs too integrated to thier hosting data disk pools. - The exporting data to T2 and T1 is suffering from the known Timeout issue. This issue will be fixed by integration of Treqs into the disk pools that host the data that will be exported our of CCIN2P3. The activation of the Treqs will be done via Phedex stager agent. We will test this scenario in September. Problèmes récurrents: ------------------------- LHCb -- Faire un point -- ===== * Concernant le 'Le disk quota exceeded' (voir Bilan semaine du 15 juin -22 juin), LHCb précise que 'Le disk quota exceeded' peut surgir également dans les jobs de merging (fichiers de taille jusqu'à 30 GB) -> Suzanne a autorisé les jobs de prod à acceder à la classe 'very long' (classe J). Néanmoins LHCb est en train de modifier la stratégie de merging pour rester au dessous de 16 GB, donc la classe long devrait suffire -> donc pas de publication de la classe very long pour lhcb pour l'instant. AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
16:30
Charge et événements prévisibles pour la semaine à venir
-
Tous
Charge et événements prévisibles pour la semaine à venir
Tous
16:30 - 16:35
Room: 322
Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
16:35
Nouvelles des équipes du CC
-
Un membre de chaque équipe
Nouvelles des équipes du CC
Un membre de chaque équipe
16:35 - 16:40
Room: 322
Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches