Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3), helene Cordier (CNRS/IN2P3)
Description
Réunion en deux parties: 1. AT Grille Participants: ceux de la réunion AT Grille habituelle. 2. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle.
Minutes EDMS
Réunion jointe Opération + AT Grille (06 Jul 2010) Chaired by: Mr. Cordier, Hélène ================== Etat des projets Grille ================== -EGI-inspire : --OMB le 28 /06, 27/07 et 17/08 --EGi Operational board 20/06 et 12/07 -IDG -- GIS FRance-Grilles 05/07 -LCG -- Comité de direction : pledges 2011 basé sur le planning LHC qui ne correspond pas à la réalité - il y a plus d'un an de retard. Les délais ne sont plus tenus mais la non-tenue du planning n'est pas officiel et les demandes de VO sont cohérentes avec le planning officiel - CCRB. Les pledges des sites à l'automne risquent d'amplifier la sous-utilisation des sites LCG : En ce moment, le CC est utilisé à 40%. Il faut revoir le planning officiel par le CCRB pour arrêter l'amplification et pour sauvegarder la crédibilité des TGE. - Grille Régionale TIDRA Journée fixée à l'automne. ================== Nouvelles des coopérations ================== RAS ================== Formation et dissémination ================== Formation utilisateurs 18, 19 et 20 octobre, au CC Formation administrateurs - installation d'un site gLite typique 26, 27 et 28 octobre, au CC Ces formations seront prochainement annoncées par mail à opération et sur le site web formation.france-grilles.fr Je suis à la recherche de formateurs !!! Merci aux personnes dispo à ces dates et intéressées de revenir vers moi. Dernières formations organisées au CC pour l'année 2010. Dès 2011, les formations seront organisées en modules. Plus d'informations dans un prochain mail à opération. Des formations seront peut-être organisées dans le Sud et en Ile de France d'ici la fin d'année. ================== Préparations transition ROC Fr --> NGI Fr ================== ras ================== Affaires administratives ================== ras ================== Incidents et problèmes des VOs (CC, sites français, autres sites) ================== Participants : RR+LA +HC+FA+PG ======================= Explotation : FA: pas de jobs Atlas ou un grand nombre de jobs Atlas qui "consomment peu" type job pilotes l'exploitation n'a pas de visibilité alors que l'exploitation semble vouloir ajuster les ressources. 1 mail envoyé à ccatlas sans réponse. Sans réponse, RR dit que le comportement doit être normal. PG demande à être en cc lors de tels mails: PG va vérifier s'il est dans les alias, mais lesquels doivent être spécifiés? Pierre doit voir avec Ghita comment mettre en place une procédure pour avoir une réponse à faire remonter à l'exploitation. Frédéric doit faire remonter le fait d'avoir un retour sur les faits du week-end. Support : LA Atlas : - suite incident LFC : augmenter le nb de threads par serveur LFC==>Conseil d'installer un 3ème serveur de LFC conformément à expertise d'un expert du CERN. PG a installé une machine en LFC, il attend le retour de David pour la mettre en production GGUS. - Test pres-staging commencés à 14h00 : 16 Go/s /dcache :ras Cms : - pb srm impactant cms et lhcb sur les CRL au Cern - fichier non maj concernant le CNRS2, incident ponctuel corrigé manuellement - pb de surcharge de serveur AFS : et timeout obsvervés. Défaillance d'un serveur AFS en cause. Lhcb : - idem pb srm - pb dcache : jobs de reconstruction via AFS qui ont échoué pour cause de mauvaise localisation sur les space token T1D0 (bug, plutôt configuration dcache au CC). Après migration des fichiers, le pb ne se pose pas. LA et Yvan doivent se renseigner sur la situation sur les autres sites en attendant le retour de LS. RR demande à LA si KIT reproduit le pb cf M. Holger. Alice : Notification dans FCR : RR note qu'il faut régler la cause du pb. Il se trouve de plus que des jobs Alice tournent au CC , il faut faire remonter les pbs au support VO dédié et à l'expérience en question. [fiche de documentation pour FCR en cours pour les VO LHC]; [Demandé maj des sondes de NAGIOS pour les VO LHC]. RVernet en charge Composants mw: ============= Serveurs Gridftp SL installés en front-end des serveurs Solaris: workaround pour l'incident concernant les transferst entre le CC et l'Amérique du Nord (TRIUMPH, BNL, FERMI). Xavier et Guillaume poursuivent les tests Release : lundi 12 Juillet des composants DPM et LFC ====== ================== Charge et événements prévisibles pour la semaine à venir ================== Atlas : charge en cours se re-staging en cours Prochain arrêt 20 /07/10 : migration de smurf :: impact sur les scripts machines -status et sur certaines sondes Nagios. ================== Nouvelles des équipes du CC ================== - Christelle ELoto au syslinux au 01/08 et une autre personne au 01/09 arrive dans l'équipe sys linux ================== Divers ================== RR : Passage IPV6 : deadline en 2011. Y-at-il une mise en application prévue au CC?
Il y a un compte-rendu associé à cet événement. Les afficher.
    • 16:00 16:10
      Etat des projets Grille 10m
      - EGI-Inspire ( Hélène) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) - ENS/DIET ( Sylvain) - GRILLES PROD/GRILLES RECHERCHE (Sylvain) et projets en préparation, le cas échéant.
      -EGI-inspire : --OMB le 28 /06, 27/07 et 17/08 --EGi Operational board 20/06 et 12/07 -IDG -- GIS FRance-Grilles 05/07 -LCG -- Comité de direction : pledges 2011 basé sur le planning LHC qui ne correspond pas à la réalité - il y a plus d'un an de retard. Les délais ne sont plus tenus mais la non-tenue du planning n'est pas officiel et les demandes de VO sont cohérentes avec le planning officiel - CCRB. Les pledges des sites à l'automne risquent d'amplifier la sous-utilisation des sites LCG : En ce moment, le CC est utilisé à 40%. Il faut revoir le planning officiel par le CCRB pour arrêter l'amplification et pour sauvegarder la crédibilité des TGE. - Grille Régionale TIDRA Journée fixée à l'automne.
    • 16:10 16:15
      Nouvelles des coopérations 5m
      - EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
      RAS
    • 16:15 16:20
      Formation et dissémination 5m
      Formations et actions de dissémination passées, en cours, à prévoir.
      Orateur: Virginie, tous
      Formation utilisateurs 18, 19 et 20 octobre, au CC Formation administrateurs - installation d'un site gLite typique 26, 27 et 28 octobre, au CC Ces formations seront prochainement annoncées par mail à opération et sur le site web formation.france-grilles.fr Je suis à la recherche de formateurs !!! Merci aux personnes dispo à ces dates et intéressées de revenir vers moi. Dernières formations organisées au CC pour l'année 2010. Dès 2011, les formations seront organisées en modules. Plus d'informations dans un prochain mail à opération. Des formations seront peut-être organisées dans le Sud et en Ile de France d'ici la fin d'année.
    • 16:20 16:35
      Préparations transition ROC Fr --> NGI Fr 15m
      - Site web France Grilles (Virginie) - Plan d'organisation des Opérations (Rolf)
      Orateur: Rolf
      ras
    • 16:35 16:40
      Affaires administratives 5m
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
      ras
    • 16:40 16:45
      break 5m
    • 16:45 17:15
      Incidents et problèmes des VOs (CC, sites français, autres sites) 30m
      Sujets Exploitation+Stockage: ---------------------------------- Mardi 29 : * demande d'intervention le 20/07/2010 pour migration base de donnees SMURF : https://cctools.in2p3.fr/operations/wiki/doku.php?id=arrets:start * 5-6-7 juillet : forte activité ATLAS est attendue ces jours là : processing Atlas from Tape Vendredi 02 : * glast lance une grosse production d'environ 40 000 jobs Pour la semaine prochaine : * lundi 5 : prevoir la sortie de production du rack idataplex12 pour migration en SL5 (pour le lendemain mardi 6) Sujets Support: ------------------- ATLAS - nouvelle du LFC (suivi par P. Girard) : analyse des logs faite par un collègue du CERN (J-P Baud); LFC très sollicité (anormalement ?); suggestion d´augmenter le nb de threads par serveur LFC et à ATLAS de voir d´où vient cette forte activité P. Girard -> nombre de threads par serveur LFC augmenté de 20 à 40 -> problème résolu P. Girard -> une troisième machine installée (capable de supporter un nb de threads élevé) et prête à la mise en prod (on attend le retour de David) - tests de prestaging de ATLAS (déjà annoncé aux diverses équipes du CC) : ce test doit commencer cette après-midi vers 14h00 CMS - Tests SAM vers SRM en échec (impact également les autres VOs)-> Un problème a été décelé avec les CRls du CERN. Un fichier avait des problème de mise à jour pour le CN=CNRS2 sur l'afs du CERN. Les experts AFS(CERN) pensent à un problème de charge. L'URL correspondant a été mise à jour manuellement. -> Problème résolu. - Le 29 une surcharge AFS a empéché les jobs d'accéder au fichier d'initialisation des variables d'environnement (T1 et T2). -> X.C. change le serveur AFS -> Problème résolu. LHCb - dCache donne locality UNAVAILABLE au lieu de ONLINE, pour les spacetokens T1D0, le temps de la migration du fichier sur bande. Cela dépend de notre configuration avec des pools dédiées à l'écriture et à la lecture. -> Impact sur les jobs qui démarrent juste après la réplication des fichiers. -> Action : LA contacte les autres T1s dCache LHCb pour connaitre leur config. (YC également informé) et on attend le retour de Lionel pour faire des éventuels changements dans la config. ALICE (pas de bilan) Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
      Participants : RR+LA +HC+FA+PG ======================= Explotation : FA: pas de jobs Atlas ou un grand nombre de jobs Atlas qui "consomment peu" type job pilotes l'exploitation n'a pas de visibilité alors que l'exploitation semble vouloir ajuster les ressources. 1 mail envoyé à ccatlas sans réponse. Sans réponse, RR dit que le comportement doit être normal. PG demande à être en cc lors de tels mails: PG va vérifier s'il est dans les alias, mais lesquels doivent être spécifiés? Pierre doit voir avec Ghita comment mettre en place une procédure pour avoir une réponse à faire remonter à l'exploitation. Frédéric doit faire remonter le fait d'avoir un retour sur les faits du week-end. Support : LA Atlas : - suite incident LFC : augmenter le nb de threads par serveur LFC==>Conseil d'installer un 3ème serveur de LFC conformément à expertise d'un expert du CERN. PG a installé une machine en LFC, il attend le retour de David pour la mettre en production GGUS. - Test pres-staging commencés à 14h00 : 16 Go/s /dcache :ras Cms : - pb srm impactant cms et lhcb sur les CRL au Cern - fichier non maj concernant le CNRS2, incident ponctuel corrigé manuellement - pb de surcharge de serveur AFS : et timeout obsvervés. Défaillance d'un serveur AFS en cause. Lhcb : - idem pb srm - pb dcache : jobs de reconstruction via AFS qui ont échoué pour cause de mauvaise localisation sur les space token T1D0 (bug, plutôt configuration dcache au CC). Après migration des fichiers, le pb ne se pose pas. LA et Yvan doivent se renseigner sur la situation sur les autres sites en attendant le retour de LS. RR demande à LA si KIT reproduit le pb cf M. Holger. Alice : Notification dans FCR : RR note qu'il faut régler la cause du pb. Il se trouve de plus que des jobs Alice tournent au CC , il faut faire remonter les pbs au support VO dédié et à l'expérience en question. [fiche de documentation pour FCR en cours pour les VO LHC]; [Demandé maj des sondes de NAGIOS pour les VO LHC]. RVernet en charge Composants mw: ============= Serveurs Gridftp SL installés en front-end des serveurs Solaris: workaround pour l'incident concernant les transferst entre le CC et l'Amérique du Nord (TRIUMPH, BNL, FERMI). Xavier et Guillaume poursuivent les tests Release : lundi 12 Juillet des composants DPM et LFC ======
    • 17:15 17:20
      Charge et événements prévisibles pour la semaine à venir 5m
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
      Orateur: Tous
      Atlas : charge en cours se re-staging en cours Prochain arrêt 20 /07/10 : migration de smurf :: impact sur les scripts machines -status et sur certaines sondes Nagios.
    • 17:20 17:25
      Nouvelles des équipes du CC 5m
      Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
      Orateur: Un membre de chaque équipe
      - Christelle ELoto au syslinux au 01/08 et une autre personne au 01/09 arrive dans l'équipe sys linux
    • 17:25 17:30
      Divers 5m
      RR : Passage IPV6 : deadline en 2011. Y-at-il une mise en application prévue au CC?