Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)
Description
Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.
    • 16:00 16:30
      Incidents et problèmes des VOs (CC, sites français, autres sites) 30m
      Sujets Stockage: ------------------- Sujets Exploitation: ------------------------ - BQS stabilisé après le problème de début de semaine dernière, mais l'origine du problème n'est pas localisée. - charges ponctuelles du service hpss - mise en production de 80 workers nouvelles génération. les limites du service dcache ont ete montées de +200, je vais rajouter +100 aujourd'hui. Les 160 autres workers devraient être mis en prod en début de semaine, mais il faut surveiller la consommation électrique car elle s'approche de la limite du risque. Sujets Support: ------------------- Atlas: ====== * Nothing to report. CMS: ==== 1) SAM test: Goal: Increase the priority to the SAM jobs in order to avoid that our site lasts many time in either lack or read list!! Background: There are actually 50% of the jobs that are submitted with the lcgadmin role and 50%with the production role. So, it is useful to give a high priority also to the cmsprod pool user that Andrea mapped to at least until he find the time to change the code of the test, so that it does not return ERROR if the job aborts for proxy expiration. 2) Transfer The transfer from CCIN2P3-->Florida did not moved for almost 3 days (6-9 Feb). The CMS people complained in the Facility operation meeting. After having a look at the FTS logs for some days (Many thanks to Ghita) we have found the following error: SOURCE error during PREPARATION phase: [REQUEST_TIMEOUT] failed to prepare source file in 180 seconds So, I wander in which level the time out was produced and if we can increase this time out ? We have to transfer to 20 T2s, many of transfers go though the IN2P3-STAR, so it seems that it is not enough to increase the FTS servers for load balancing, but maybe it could be fine if we can find out where is the other bottleneck to improve the transfer, and then reach a very good visibility...at the end is our goal right.... 3) Reprocessing Several reprocessing jobs were killed due to memory exceeded. This is happened with the last CMS release that need more than 2.2GB. So, We was asked to increase the memory threshold as well as publish this limit in the BDII. LHCb: ===== * Nothing to report. Alice: ====== * Nothing to report. AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
      Problèmes récurrents des VOs
    • 16:30 16:35
      Charge et événements prévisibles pour la semaine à venir 5m
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
      Orateur: Tous
    • 16:35 16:40
      Nouvelles des équipes du CC 5m
      Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
      Orateur: Un membre de chaque équipe
    • 16:40 16:45
      break 5m
    • 16:45 16:55
      Etat des projets Grille 10m
      - EGEE (Rolf) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
    • 16:55 17:00
      Nouvelles des coopérations et de l'IdG 5m
      - EELA et participation à la conférence EELA-2 (Cyril) - IdG
    • 17:00 17:05
      Affaires administratives 5m
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés * UserForum/OGF Catane: qui peut remplacer Sylvain pour une présentation de JSAGA?
    • 17:05 17:10
      Divers 5m