Réunion jointe Opération + AT Grille

Name: Réunion jointe Opération + AT Grille
Start: 2010-03-09T16:30:00+01:00
End: 2010-03-09T17:30:00+01:00
Location: IN2P3

mardi 9 mars 2010, 16:30 → 17:30 Europe/Paris

322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)

Description

Réunion en deux parties: 1. AT Grille Participants: ceux de la réunion AT Grille habituelle. 2. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle.

- 16:30 → 16:35
  
  Formation et dissémination 5m
  
  Formations et actions de dissémination passées, en cours, à prévoir.
  
  Orateur: Virginie, tous
- 16:35 → 16:40
  
  Préparations transition ROC Fr --> NGI Fr 5m
  
  - Site web France Grilles (Virginie) - Plan d'organisation des Opérations (Rolf) Voir aussi http://francegrid.in2p3.fr
  
  Orateur: Rolf
- 16:40 → 16:45
  
  Affaires administratives 5m
  
  - Missions et absences dans la semaine à venir - Conférences / workshops annoncés - Changement dans la direction du CC
- 16:45 → 17:15
  
  Incidents et problèmes des VOs (CC, sites français, autres sites) 30m
  
  Sujets Exploitation+Stockage: ---------------------------------- - Mardi : Arrêt et bilan cf wiki. Ressource dcache augmentée avec modération. Jobs slow de CMS Bila au support vo pour faire le tour des besoins en memoire des jobs pr vérifier que tt est OK. Une seule réponse : celle de ALICE! - Mercredi : plusieurs incidents suite au redémarrage : BQS cuurently locked. Repropagation des va. redémarrage de certaines machines. Redemarrage de BQSD. ccxrdsn024 est en cours de maintenance : sortie de la surveillance nagios. - Jeudi : pbm PL et ressource u_sps_d0. Il n'est d'accord sur le maxAvailable et veut l'augmenter. Mais ses jobs saturent la bande passante du serveur qui héberge d'autres espaces : 400Mo/400! Migration de la machine MAGO effectuée. Un incident : job disappeared sur machine malade n'a pas été detecté. Incident transmis à JD. Vendredi : RAS. Pas de RC report.. Sujets Support: ------------------- _Atlas :_ **** Problème de transfert de gros fichiers (>=10GB) Tokyo-CC Le temps de transfert d'un fichier de 10GB est bien supérieur au timeout mis de 3600s. David a augmenté le timeout à 4500s. Mais comme il n'est pas prévu de transférer des fichiers de cette taille, nous avons demandé à Atlas d'arrêter ce qui a été fait. Les timeouts ont été remis par David à 3600s. ***** La nouvelle vobox de Atlas cclcgatlas03 a été installée et livrée à Atlas pour l'installation de PANDA. Cela a mis quand même près d'une année. ***** Beaucoup d'activité de processing de Atlas sans problème particulier. _CMS :_ Tout va bien _LHCb :_ Plus de problèmes d'accès aux fichiers via dcap avec la nouvelle version de ROOT. Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
  
  Orateur: Tous
- 17:15 → 17:20
  
  Charge et événements prévisibles pour la semaine à venir 5m
  
  Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
  
  Orateur: Tous
- 17:20 → 17:25
  
  Nouvelles des équipes du CC 5m
  
  Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
  
  Orateur: Un membre de chaque équipe
- 17:25 → 17:30
  
  Divers 5m
  
  - Décision sur le nouveau système de batch

Choisissez le fuseau horaire

Réunion jointe Opération + AT Grille

322

IN2P3