Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

Hélène CORDIER, Rolf Rumler (CNRS/IN2P3)
Description
Réunion en deux parties: 1. AT Grille Participants: ceux de la réunion AT Grille habituelle. 2. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle.
CR
CR until June 2010
    • 16:00 16:10
      Etat des projets Grille 10m
      - EGI-Inspire - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
    • 16:10 16:15
      Nouvelles des coopérations 5m
      - EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
    • 16:15 16:20
      Formation et dissémination 5m
      Formations et actions de dissémination passées, en cours, à prévoir.
      Orateur: Virginie, tous
    • 16:20 16:35
      Préparations transition ROC Fr --> NGI Fr 15m
      - Site web France Grilles (Virginie) - Plan d'organisation des Opérations (Rolf)
      Orateur: Rolf
    • 16:35 16:40
      Affaires administratives 5m
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
    • 16:40 16:45
      break 5m
    • 16:45 17:15
      Incidents et problèmes des VOs (CC, sites français, autres sites) 30m
      Sujets Exploitation+Stockage: ---------------------------------- * lundi : probleme AFS avec jobs d0. Il y a du avoir un probleme de charge. Les clients AFS restent pendus (300 connexions "fantomes") bien que les jobs ont été tués et le fileserveur redémarré (du au cache des workers)!! -> blocage de D0 * Mardi: - Arret - En soirée : réouverture progressivede D0 * Mercredi - Petit probleme RFIO -> coupure HPSS de 10:30 à 13:00 * Jeudi Atlas soumet toujours avec les ressources erronées (xrootd alors qu'ils utilisent dcache) crash machine ccexpl -> vu que le lendemain Impact de cette coupure: Environ 22h d'interruption des services suivants: - checkWorkers - lhcalert - mis à jour OVAX - insertion de données dans OVAX ...etc ccsrm02 tombe * Vendredi - ccexpl: bacullemenent vers machine de spare (ccsvli23). Penser à rebasculler dans l'autre sens la semaine prochaine. - Beaucoup de jobs slow d'Alice Sujets Support: ------------------- _ATLAS :_ ========================================================================================= Transferts lents de BNL vers IN2P3 ========================================================================================= Les transferts depuis BNL de fichiers de l'ordre de 4GB prennent environ 2.7MB/s ce qui est très lents. De toute evidence, ce ne sont pas des problèmes liés au réseau. Olivier continue à investiguer ========================================================================================= Changement de ressources Analyse T2 Atlas ========================================================================================= La ressource d'analyse T2 (u_xrootd_atlas) est devenue u_dcache_atlasT2 : utilisation de dcache, abandon de xrootd. Xrootd reste disponible pour l'analyse via PROOF ========================================================================================= Transfert Lyon<->Tokyo ========================================================================================= De nombreux echec pour ces transfert ces deux derniers mois. Une machine a été identifiée comme responsable sans pour autant savoir pourquoi. Elle sera remplacée, et le diagnostic sera recherché offline. _CMS :_ SAM test: - Errors detected by SAM test jobs are impacted the site Readiness. - These errors were seen on 7th and 11th June. Lionel and Evan are aware of this, but they believe that it could be due to a temporary issue on the VOMS server at CERN. _ALICE :_ nombre important de slow jobs ALICE a chaque production massive, ce qui crispe (a juste titre) l'exploitatioin. beaucoup d'entre eux sont lents de par la non-reponse ou lenteur d'acces aux donnees sur stockees certains sites. je developpe un script de monitoring pour essayer de faire une statistique de ce genre de probleme. _LHCb :_ - Les Afs Masters ont changé le type et la version du serveur contenant le toolkit de lhcb. Il n'y a plus eu de timeouts des jobs depuis, mais les tests SAM indiquent toujours une lenteur d'accès à la software area. Plus des détails dans le ticket : https://gus.fzk.de/ws/ticket_info.php?ticket=58283 Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
    • 17:15 17:20
      Charge et événements prévisibles pour la semaine à venir 5m
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
      Orateur: Tous
    • 17:20 17:25
      Nouvelles des équipes du CC 5m
      Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
      Orateur: Un membre de chaque équipe
    • 17:25 17:30
      Divers 5m