Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

helene Cordier (CNRS/IN2P3)
Description
Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.
Réunion jointe Opération + AT Grille (27 Jan 2009) Chaired by: Cordier, helene ================== Incidents et problèmes des VOs (CC, sites français, autres sites) ================== PG, OA, DB, YC, CO, SL, HC, LS, YC, PEB Secretaire : Hélène Stockage : HPSS : RAS Dcache: Arrêt du 26 Janvier 09:00- 17:00 : changement de 2 core serveurs IBM3550. Distribution du 3ème core serveur sur 2 machines + maj de dcache sur ces 4 core servers et activation d'une nouvelle versions de gridftp sur quelques machines vers un développement complet. Après la reprise : le port srm n'était pas visible de l'extérieur résolu rapidemment - pb de firewall - et le 2nd pb qui a duré toute la nuit : l'affectation d'un space token de vieux fichiers atlas a rendu la DB du gestionnaire des reservation incohérent i.e. impossibilité d'écrire sur le SE toute la nuit. Corrigé le 27 matin. PG: mentionne que le downtimes devrait être fixé un peu large par l'exploitation i.e. rajouter par défaut 2h . Et l'exploitation doit vérifier l'état du service aux environs de l'heure fixée pour rallonger éventuellement le downtimes, sachant qu'il est toujours possible de le raccourcir. YC mentionne que CB n'a pas recu de réponse à son mail lagaffe concernant le pb. L'erreur n'étant pas répertoriée dans RLS. Doit-on conseiller à lagaffe de vérifier les SAM tests ? PEB suggère qu' 1 sonde Nagios intelligente puisse simuler ce pb. NL note le use-case pour le retransmettre à MH. Il est conseillé au groupe support dans un tel cas d'appeler directement lagaffe. OA mentionne que le bug remonté par CB a été fixé. autre incident : 1 server de disque a un pb sur un disque, Atlas a des soucis d'accès à 350 000 fichier. XC en cours d'intervention et support prévenu. Sujets exploitation: ============= Intervention BQS le 20/01/09 OK. Incident sur BQS le 21/01/09 ok. Volume surchargé par Atlas : lié à un pb récurrent répertorié Echec des SAM tests liés au close SE : NL prépare une liste qui recense les types de messages d'erreurs des tests CE, la fréquence et le nombre, sur la semaine en cours, en attente d'automatisation. Sujets support: =========== CMS: === - Installation du BQS jobmanager et l'impact sur le CE cclcgceli02 et celi06: bug depuis ne parvient pas à écrire dans le syslog. s'apparent à un trou noir d'Atlas. lié à un pb récurrent- encours. - Transferts lents T1-T1 : relatif à un pb récurrent - encours. - Jobs slows : liés à un pb récurrent - Erreurs sur les jobs de production : lié à un bug d'Atlas, fen cours. support contacté. - dcache arrêt : traités précédemment. CMS : ==== - dcache arrêt : traités précédemment. - Jobs failed pour cause de librairies manquantes sur quelques WN :xorg-x11-Mesa-LibGlu. pb ponctuel et ticket réglé. Arrivé 2 fois depuis Juillet 2008. - FTS transfers surchargée : même symtômes qu'Atlas. Alice: === ras Atlas: === ras VOMS: ==== DB signale une installation retardée des nouveaux VOMS. ================== Nouvelles des équipes du CC ================== sysunix : ras support :ras developpement : ras exploitation: ras stockage : réunion stage-in pour les données du LHC le 30/01/09. 15h30 Galette SUN. Besoins pour le SYMOD : Séminaire SYMOD nécessaire pour faciliter la récolte des besoins des divers services, car une vue d'ensemble est manquante. Nouvelle embauche : 1 embauche en cours pour le CIC portal pour l'équipe développement. ================== Etat des projets Grille ================== EGEE : ESRF certifié aujourd'hui. Ils ont une monbox déclarée : le site est en production mais en probation pour une semaine pour tester tous les SAM tests. EGI-DS : Le résultat des candidatures pour le 2 Mars. IdG : le livre blanc est en cours - travail prospectif de la grille nationale. LCG : la partie dédiée à LCG dans la GDA est supprimée profit du daily meeting - proposition du 21/01/09. ================== Affaires administratives ================== YC : workshop irods le semaine prochaine au CC OA : absent le 02 fev. ================== Divers ================== Grève du 29/01/09 : Grille : PG présent le matin, DB la journée. Suggestion de mettre un downtime at risk pour la journée [PG] mettre un SD jeudi si au moins 1 personne n'est pas présente jeudi.
Il y a un compte-rendu associé à cet événement. Les afficher.
    • 16:00 16:05
      Accueil de Marcos LINS 5m
      Orateur: Rolf
    • 16:05 16:30
      Incidents et problèmes des VOs (CC, sites français, autres sites) 25m
      Sujets Stockage: ------------------- - HPSS: Sujets Exploitation: ------------------------ Mardi 20 janvier Intervention BQS : Maintenance matérielle (contrôleur disques et 1 disque remplacés) et re-installation complète de la machine La ferme a été lockée de 13h15 a 14h15 le spawn re-ouvert vers 14h40 Mercredi 21 janvier BQS : Passe de sched trop longue quand il y a trop de job en queue BQS a du mal on a reduit le nombre de jobs par passe et on cosei Un volume AFS ccafs022 pour ATLAS se retrouve surchargé pour les raisons suivantes - Certains jobs T1 atlas050 l'accédent en RO - Certains jobs font la mise à jour du soft de ATLAS Alors on a ralenti l'entree en machine des jobs du groupe pour laisser l'install se faire tranquillement pendant la journée..Et on a dupliqué un volume pour permettre la transition vers cette nvelle release sans trop de dégats. Autre : Le RC report montre que les tests sur notre site liés au Close SE échouent et le mettent évidement en échec pour le probléme suivant : le BDII ne semble pas être renseigé correctement sur le SRM SE. Probléme en cours. Lundi 26 Janvier Arrêt SRM : SRM core servers to be changed. FTS file tranfers from or to IN2P3-CC will be impossible during this downtime.et Dcache en ce moment Sujets Support: ------------------- Atlas: ====== * Le BQS manager installe par Pierre Girard sur les CEs cclcgceli02 et cclcgceli06 permet (comme desire) de rentrer beaucoup de jobs de ATLAS. Pierre a fait une derniere manip. dessus hier, il faut donc verifier cela dans 24 heures. * Update sur les transferts T1-T1 qui etaient lents (deja presente la semaine derniere): le goulot d'etranglement semble etre au niveau de la charge des machines FTS. David Bouvet a installe une machine supplementaire et a equilibre les agents entre les 3 machines. Amelioration a confirmer. ATLAS va mener la meme campagne de tests exactement en fevrier (la daten'est pas fixee). * Des jobs slow de production ATLAS du a des realease toujours en RW (le volume devait etre mis a jour donc il fallait le paser en RW). * Des erreurs sur les jobs de production ATLAS par paquets (une fois / semaine depuis 3 semaines) liees a LFC. En cours. News de David Bouvet : certainement liees a un proxy expire (cote utilisateur ou machine mais pas LFC). * Notification de la GOC DB pas distribue correctement. Probleme trace par Osman et remonte a un bug dans le code. Fixe maintenant. * Apres la fin du downtime de dCache hier, des problemes avec la reservation pour ATLAS. Aucun transfert jusqu'a ce matin vers 9h30. Notification du probleme a 19h22 a lagaffe et dcachemaster. CMS: ==== * SAM: jobs never start (please see *). Is it due to the dCache downtime http://dashb-cms-sam.cern.ch/dashboard/request.py/testhistory?servicename=cclcgceli03.in2p3.fr&services=CE&timeRange=individual&start=2009-01-20&end=2009-01-27&sites=T1_FR_CCIN2P3 * Reprocessing jobs: - Symptoms: failed of some reprocessing jobs on 23th January - Cause: libGLU package was missing at some WNs. - Explanation: The lack of this lib maybe due to the installation problems. - Solution: The few WNs concerned have been upgraded. * Transfers: the down transfers from CCIN2P3 were quite poor last week, because of the FTSchannels were overload by the ATLAS transfers. Alice: ====== * Still no Alice jobs at CC, site is ok, production not yet started. LHCb: ===== * Nothing to report. AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
      PG, OA, DB, YC, CO, SL, HC, LS, YC, PEB Secretaire : Hélène Stockage : HPSS : RAS Dcache: Arrêt du 26 Janvier 09:00- 17:00 : changement de 2 core serveurs IBM3550. Distribution du 3ème core serveur sur 2 machines + maj de dcache sur ces 4 core servers et activation d'une nouvelle versions de gridftp sur quelques machines vers un développement complet. Après la reprise : le port srm n'était pas visible de l'extérieur résolu rapidemment - pb de firewall - et le 2nd pb qui a duré toute la nuit : l'affectation d'un space token de vieux fichiers atlas a rendu la DB du gestionnaire des reservation incohérent i.e. impossibilité d'écrire sur le SE toute la nuit. Corrigé le 27 matin. PG: mentionne que le downtimes devrait être fixé un peu large par l'exploitation i.e. rajouter par défaut 2h . Et l'exploitation doit vérifier l'état du service aux environs de l'heure fixée pour rallonger éventuellement le downtimes, sachant qu'il est toujours possible de le raccourcir. YC mentionne que CB n'a pas recu de réponse à son mail lagaffe concernant le pb. L'erreur n'étant pas répertoriée dans RLS. Doit-on conseiller à lagaffe de vérifier les SAM tests ? PEB suggère qu' 1 sonde Nagios intelligente puisse simuler ce pb. NL note le use-case pour le retransmettre à MH. Il est conseillé au groupe support dans un tel cas d'appeler directement lagaffe. OA mentionne que le bug remonté par CB a été fixé. autre incident : 1 server de disque a un pb sur un disque, Atlas a des soucis d'accès à 350 000 fichier. XC en cours d'intervention et support prévenu. Sujets exploitation: ============= Intervention BQS le 20/01/09 OK. Incident sur BQS le 21/01/09 ok. Volume surchargé par Atlas : lié à un pb récurrent répertorié Echec des SAM tests liés au close SE : NL prépare une liste qui recense les types de messages d'erreurs des tests CE, la fréquence et le nombre, sur la semaine en cours, en attente d'automatisation. Sujets support: =========== CMS: === - Installation du BQS jobmanager et l'impact sur le CE cclcgceli02 et celi06: bug depuis ne parvient pas à écrire dans le syslog. s'apparent à un trou noir d'Atlas. lié à un pb récurrent- encours. - Transferts lents T1-T1 : relatif à un pb récurrent - encours. - Jobs slows : liés à un pb récurrent - Erreurs sur les jobs de production : lié à un bug d'Atlas, fen cours. support contacté. - dcache arrêt : traités précédemment. CMS : ==== - dcache arrêt : traités précédemment. - Jobs failed pour cause de librairies manquantes sur quelques WN :xorg-x11-Mesa-LibGlu. pb ponctuel et ticket réglé. Arrivé 2 fois depuis Juillet 2008. - FTS transfers surchargée : même symtômes qu'Atlas. Alice: === ras Atlas: === ras VOMS: ==== DB signale une installation retardée des nouveaux VOMS.
    • 16:30 16:35
      Charge et événements prévisibles pour la semaine à venir 5m
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
      Orateur: Tous
    • 16:35 16:40
      Nouvelles des équipes du CC 5m
      Sujets par équipe, avec un impact potentiel sur l'exploitation. - AT Grille: besoins Symod Nouvelles des embauches
      Orateur: Un membre de chaque équipe
      sysunix : ras support :ras developpement : ras exploitation: ras stockage : réunion stage-in pour les données du LHC le 30/01/09. 15h30 Galette SUN. Besoins pour le SYMOD : Séminaire SYMOD nécessaire pour faciliter la récolte des besoins des divers services, car une vue d'ensemble est manquante. Nouvelle embauche : 1 embauche en cours pour le CIC portal pour l'équipe développement.
    • 16:40 16:45
      break 5m
    • 16:45 16:55
      Etat des projets Grille 10m
      - EGEE (Pierre) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
      EGEE : ESRF certifié aujourd'hui. Ils ont une monbox déclarée : le site est en production mais en probation pour une semaine pour tester tous les SAM tests. EGI-DS : Le résultat des candidatures pour le 2 Mars. IdG : le livre blanc est en cours - travail prospectif de la grille nationale. LCG : la partie dédiée à LCG dans la GDA est supprimée profit du daily meeting - proposition du 21/01/09.
    • 16:55 17:00
      Nouvelles des coopérations 5m
      - EELA et participation à la conférence EELA-2 (Cyril)
    • 17:00 17:05
      Affaires administratives 5m
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
      YC : workshop irods le semaine prochaine au CC OA : absent le 02 fev.
    • 17:05 17:10
      Divers 5m
      Grève du 29/01/09 : Grille : PG présent le matin, DB la journée. Suggestion de mettre un downtime at risk pour la journée [PG] mettre un SD jeudi si au moins 1 personne n'est pas présente jeudi.