Réunion jointe Opération + AT Grille

Name: Réunion jointe Opération + AT Grille
Start: 2010-06-15T16:00:00+02:00
End: 2010-06-15T17:30:00+02:00
Location: IN2P3

mardi 15 juin 2010, 16:00 → 17:30 Europe/Paris

322 (IN2P3)

322

IN2P3

Hélène CORDIER, Rolf Rumler (CNRS/IN2P3)

Description

Réunion en deux parties: 1. AT Grille Participants: ceux de la réunion AT Grille habituelle. 2. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle.

- 16:00 → 16:10
  
  Etat des projets Grille 10m
  
  - EGI-Inspire - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
- 16:10 → 16:15
  
  Nouvelles des coopérations 5m
  
  - EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
- 16:15 → 16:20
  
  Formation et dissémination 5m
  
  Formations et actions de dissémination passées, en cours, à prévoir.
  
  Orateur: Virginie, tous
- 16:20 → 16:35
  
  Préparations transition ROC Fr --> NGI Fr 15m
  
  - Site web France Grilles (Virginie) - Plan d'organisation des Opérations (Rolf)
  
  Orateur: Rolf
- 16:35 → 16:40
  
  Affaires administratives 5m
  
  - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
- 16:40 → 16:45
  
  break 5m
- 16:45 → 17:15
  
  Incidents et problèmes des VOs (CC, sites français, autres sites) 30m
  
  Sujets Exploitation+Stockage: ---------------------------------- * lundi : probleme AFS avec jobs d0. Il y a du avoir un probleme de charge. Les clients AFS restent pendus (300 connexions "fantomes") bien que les jobs ont été tués et le fileserveur redémarré (du au cache des workers)!! -> blocage de D0 * Mardi: - Arret - En soirée : réouverture progressivede D0 * Mercredi - Petit probleme RFIO -> coupure HPSS de 10:30 à 13:00 * Jeudi Atlas soumet toujours avec les ressources erronées (xrootd alors qu'ils utilisent dcache) crash machine ccexpl -> vu que le lendemain Impact de cette coupure: Environ 22h d'interruption des services suivants: - checkWorkers - lhcalert - mis à jour OVAX - insertion de données dans OVAX ...etc ccsrm02 tombe * Vendredi - ccexpl: bacullemenent vers machine de spare (ccsvli23). Penser à rebasculler dans l'autre sens la semaine prochaine. - Beaucoup de jobs slow d'Alice Sujets Support: ------------------- _ATLAS :_ ========================================================================================= Transferts lents de BNL vers IN2P3 ========================================================================================= Les transferts depuis BNL de fichiers de l'ordre de 4GB prennent environ 2.7MB/s ce qui est très lents. De toute evidence, ce ne sont pas des problèmes liés au réseau. Olivier continue à investiguer ========================================================================================= Changement de ressources Analyse T2 Atlas ========================================================================================= La ressource d'analyse T2 (u_xrootd_atlas) est devenue u_dcache_atlasT2 : utilisation de dcache, abandon de xrootd. Xrootd reste disponible pour l'analyse via PROOF ========================================================================================= Transfert Lyon<->Tokyo ========================================================================================= De nombreux echec pour ces transfert ces deux derniers mois. Une machine a été identifiée comme responsable sans pour autant savoir pourquoi. Elle sera remplacée, et le diagnostic sera recherché offline. _CMS :_ SAM test: - Errors detected by SAM test jobs are impacted the site Readiness. - These errors were seen on 7th and 11th June. Lionel and Evan are aware of this, but they believe that it could be due to a temporary issue on the VOMS server at CERN. _ALICE :_ nombre important de slow jobs ALICE a chaque production massive, ce qui crispe (a juste titre) l'exploitatioin. beaucoup d'entre eux sont lents de par la non-reponse ou lenteur d'acces aux donnees sur stockees certains sites. je developpe un script de monitoring pour essayer de faire une statistique de ce genre de probleme. _LHCb :_ - Les Afs Masters ont changé le type et la version du serveur contenant le toolkit de lhcb. Il n'y a plus eu de timeouts des jobs depuis, mais les tests SAM indiquent toujours une lenteur d'accès à la software area. Plus des détails dans le ticket : https://gus.fzk.de/ws/ticket_info.php?ticket=58283 Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
  
  Orateur: Tous
- 17:15 → 17:20
  
  Charge et événements prévisibles pour la semaine à venir 5m
  
  Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
  
  Orateur: Tous
- 17:20 → 17:25
  
  Nouvelles des équipes du CC 5m
  
  Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
  
  Orateur: Un membre de chaque équipe
- 17:25 → 17:30
  
  Divers 5m

Choisissez le fuseau horaire

Réunion jointe Opération + AT Grille

322

IN2P3