Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

Hélène CORDIER, Rolf Rumler (CNRS/IN2P3)
Description
Réunion en deux parties: 1. AT Grille Participants: ceux de la réunion AT Grille habituelle. 2. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle.
Minutes EDMS
Réunion jointe Opération + AT Grille (22 Jun 2010) Chaired by: Mr. Rumler, Rolf; Ms. CORDIER, Hélène ================== Etat des projets Grille ================== Participants : RR+ VD+JG+LS+SR EGI-Inspire : Initialisation des timesheets. NGI_FRANCE operationnel. OMB le 29 /07/10. IDG : Cloud computing journée à l'ENS : fin novembre / debut Decembre.VD demande s'il y a des dates qui entrenet en collision avec cette période. LCG : ras Grille régionale : la journée TIDRA grand public + utilisateurs + partenaires sera organisée avec la region; Yonny Tiffany et Pascal annonceront une date pour la rentrée de façon tardive (pour Octobre ?). ================== Nouvelles des coopérations ================== EELA/ GISELA : ? Asie : ? ================== Formation et dissémination ================== VD attend des retours de Pierre G. et de Yannick L. VD prépare le rapport en anglais concernant les plans de formation et signalera les besoins de prise de parole à la réunion OPerations France-Grilles 06/07/10. ================== Préparations transition ROC Fr --> NGI Fr ================== 1- Site Web: (besoin d'intranet : : IDG n'a pas de budget pour financer un intranet sur 2010. A voir avec Vincent Breton si on peut le faire sur les besoins de Dorine). 2- Plan d'Organisation des Opérations : Journée atelier en Octobre 2010 pour valider la structuration des opérations (RR) ================== Affaires administratives ================== Review EGEE-III : 23/24 Juin 2010 LCG-FR MRS: 24/25 Juin 2010 EGI technical Workshop : 14-17 Septembre 2010 Inauguration GIS France-Grilles : 24 Septembre 2010 Journée Atelier Operations France-Grilles: Octobre 2010 Journée outils pour le calcul scientifique en Rhône-Alpes : CHPID 29 Juin 2010 [SR] Collaboration ENS/ DIET [FS : réponse à appel d'offres pour un ingénieur de recherche pour utiliser jsaga pour interagir avec DIET émuler gridrpc sur des grilles glite] -- faire un point dans la rubrique coopérations / projet grille. HC Jeudi /vendredi 24/25 Juin. ================== Incidents et problèmes des VOs (CC, sites français, autres sites) ================== Impliquer Yvan Calas pour l'implication. Exploitation: Bilan semaine uploadé, manque le week-end : comment on peut faire apparaître les interventions du week-end ? [NL] 1- Jobs slows sur CMS -T2, pb non clarifié à ce jour. Problème depuis 15 jours cms019. 2- L'utilisateur D0 qui a saturé un CE en utilisant JJS. PG a réglé le problème en direct : RR mentionne que ce type d'interaction avec l'utilisateur devrait être traité par l'exploitation / support??. Support : CMS : 1- AFS timeout après l'update des CRLS ? n/a 2- gtfp timeout's : n/a -- voir Yvan ? ATLAS : slow jobs et dégradation du LFC ce week-end : Deux machines de LFC dont l'installation n'était pas homogène : la répartition de la charge - load balancing sur alias non validé. Mais le principe de fonctionnement de lbnamed a masqué le symptôme - puisque il y a avait toujours une machine derrière l'alias. Mettre en place des tests sur toutes les machines FTS et LFC une à une ou test du service seulement --- Définition des critères que l'on peut supporter ??? voir avec David?? prendre en compte "lbnamed"? LS précise qu'un soft "balance" est utilisé pour la haute dispo pour les portes dcap. à suivre [HC] **** AT Grille Tests de glexec en cours. 2 CREAM-CE installés et non surchargés, d'autres en prévision mais avec machines demandées il y a 2 semaines. Sonde Nagios spécifique au Cream WN-BIops - CE toujours en erreur: remonté au niveau du projet? Mise à jour des CAs sur AFS et NagiosBox par Jacques Garnier -- beaucoup de changement dans la liste d'enregistrements. MAJ des CA pour les services et pour dcache. Communiquer à cic-information et à nagiosmaster en sortie. [NL/JG] Renommer l'entrée dans le wiki crl/grille en cacrl/grille et si exploitation valide de demander à crlmaster de mettre à jour la fiche. ================== Charge et événements prévisibles pour la semaine à venir ================== *** ANNONCE de CHARGE DE TRAVAIL [HPSS, ATLAS] Vérifier que les Atlas et HPSS master sont en liaison. [LS] Transfer lents en provenance de BNL problème grave pour Atlas: installation de portes gridftp sour linux : workaround pour augmenter le débit: A vérifier et installation de machines virtuelles gridftp. ================== Nouvelles des équipes du CC ================== LS arrivée dans l'équipe développement et recrutement en cours dans l'équipe infrastructure. ================== Divers ================== - Identification de la salle machine en panne ? [à faire remonter par les services généraux] - LCG : (notification des alertes NAGIOS par le portail des Operations et d'utiliser les fonctionnalités de Nagios [NL, PG], notamment l'historique pour le debugging). Reporting : Réutiliser l'ancienne focntionnalité des sites reports (?)
Il y a un compte-rendu associé à cet événement. Les afficher.
    • 1
      Etat des projets Grille
      - EGI-Inspire - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
      Participants : RR+ VD+JG+LS+SR EGI-Inspire : Initialisation des timesheets. NGI_FRANCE operationnel. OMB le 29 /07/10. IDG : Cloud computing journée à l'ENS : fin novembre / debut Decembre.VD demande s'il y a des dates qui entrenet en collision avec cette période. LCG : ras Grille régionale : la journée TIDRA grand public + utilisateurs + partenaires sera organisée avec la region; Yonny Tiffany et Pascal annonceront une date pour la rentrée de façon tardive (pour Octobre ?).
    • 2
      Nouvelles des coopérations
      - EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
      EELA/ GISELA : ? Asie : ?
    • 3
      Formation et dissémination
      Formations et actions de dissémination passées, en cours, à prévoir.
      Orateur: Virginie, tous
      VD attend des retours de Pierre G. et de Yannick L. VD prépare le rapport en anglais concernant les plans de formation et signalera les besoins de prise de parole à la réunion OPerations France-Grilles 06/07/10.
    • 4
      Préparations transition ROC Fr --> NGI Fr
      - Site web France Grilles (Virginie) - Plan d'organisation des Opérations (Rolf)
      Orateur: Rolf
      1- Site Web: (besoin d'intranet : : IDG n'a pas de budget pour financer un intranet sur 2010. A voir avec Vincent Breton si on peut le faire sur les besoins de Dorine). 2- Plan d'Organisation des Opérations : Journée atelier en Octobre 2010 pour valider la structuration des opérations (RR)
    • 5
      Affaires administratives
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
      Review EGEE-III : 23/24 Juin 2010 LCG-FR MRS: 24/25 Juin 2010 EGI technical Workshop : 14-17 Septembre 2010 Inauguration GIS France-Grilles : 24 Septembre 2010 Journée Atelier Operations France-Grilles: Octobre 2010 Journée outils pour le calcul scientifique en Rhône-Alpes : CHPID 29 Juin 2010 [SR] Collaboration ENS/ DIET [FS : réponse à appel d'offres pour un ingénieur de recherche pour utiliser jsaga pour interagir avec DIET émuler gridrpc sur des grilles glite] -- faire un point dans la rubrique coopérations / projet grille. HC Jeudi /vendredi 24/25 Juin.
    • 16:40
      break
    • 6
      Incidents et problèmes des VOs (CC, sites français, autres sites)
      Sujets Exploitation+Stockage: ---------------------------------- Lundi - Pbm avec les qinit se pose au moment du démarrage des workers. Lié à une modif sur NIS. Corrigé dans l'AP. >qinit ccpl0202 getservbyname :Resource temporarily unavailablefailed to start bqs on ccpl0202.in2p3.fr - Tests de passage de jobs sur le worker ccwl0091 pour valider la mise à jour : kernel + ccautoFS - Pbm avec la ressource u_sps_planck : réduite à 50 suite à un pbm d'accés à leur bande - Sortie du rack dell-lcp08-down Mardi - Test de validation sur cctsli01 : montage,accés bde,soumission d'un job DIVA - Réglages diverses sur la prod (ressources,objectifs: suzanne) - Suite des tests sur ccwl0091 pour validation - Remise en prod de workers Mercredi - Pbm avec le worker ccwl1181 : tous les jobs y sont slow - Remise en prod de machines - rack mis à niveau dell-lcp-08-down Jeudi - Point sur les ressources indisponibles (mail LT) - Bascule de la machine MAGO - Bcp de jobs slow LHC : alice et cms Vendredi - Sortie du rack dell-lcp08-up : a donner aux admins pr mise à niveau. Machine(s) concernée(s) : ccwl0123 ccwl0122 ccwl0121 ccwl0120 ccwl0119 ccwl0118 ccwl0117 ccwl0116 ccwl0115 ccwl0114 ccwl0113 ccwl0112 ccwl0111 ccwl0110 ccwl0109 ccwl0108 ccwl0107 ccwl0106 ccwl0105 ccwl0104 ccwl0103 ccwl0102 ccwl0101 ccwl0100 ccwl0099 ccwl0098 ccwl0097 ccwl0096 ccwl0095 ccwl0094 ccwl0093 ccwl0092 - Remise en prod de machine suite aux mails de yannick Sujets Support: ------------------- CMS : http://cctools.in2p3.fr/elog/support-cms/127 # SAM Tests * Two issues impacted considerably the SAM test results: I) VOMS certificate and II) dCache Pool-Manager I) VOMS certificate: this issue appeared on 5-7th June. It was checked that the update of the CRLs on CC-IN2P3's AFS is done as soon as the update was announced. However, several timeouts have been seen in what concerns the AFS volumes where the CRLs are installed at CC-IN2P3. Neither afsmasters nor dcahcemaster are 100% sure that the timeouts seen on AFS cause the issue, so that I asked CERN to collaborate with us in what follows: * It was checked that only one node (vocms36.cern.ch) from where the jobs are submitted. * The CRLs are installed in another node, from where CRAB jobs serves too. * CERN are still investigating the cause, but they believe that the issue is likely to be explained by the AFS timeouts. II) Pool-Manager issue: this issue appeared this week-end and caused several's gftp timeouts for the export activity, along with the failure of the SAM tests. We have increased the the gftp connections on the disk pools. This helps in improving the export, however the issue is not full understood yet. dCache masters have reported the errors seen during this incident to the dcache expert. ATLAS: ***SLOW JOBS - beaucoup de slow jobs depuis le debut du dernier week-end; une partie a ete reliee a la degradation du service LFC dans la nuit du dimanche a lundi; repare mardi dans la soiree mais pas d'ameliorations visibles sur les jobs lents d'atlas. - plusieurs pistes suivi (distribution non equilibree des fichiers sur les pools ? lecture directe des fichiers sans cp sur le WN ? ...). - toujours en cours d'investigation. ***LFC - inquietant que le service soit degrade sans que les tests/sondes internes du CC ne le detecte. *** ANNONCE ACTIVITE SPECIALE FUTURE - HPSS : prevision de tests de staging par ATLAS-central, la date est "up-to the site" mais nous (atlas au CC) n'avons pas encore decide/discute quoi-que ce soit; le test serait : preferably 1-15 July with little CMS activity, ~16TB to be flushed from disks *** Problème toujours présent des transferts lents depuis BNL. Des tests de Lionel montrent que les transferts sont de l'ordre de 20MB sur une machine de transfert SL4 et de 4MB/s sur une SOLARIS10. ==> à suivre LHCB : Pas de rapport cette semaine ALICE : Pas de rapports cette semaine Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
      Impliquer Yvan Calas pour l'implication. Exploitation: Bilan semaine uploadé, manque le week-end : comment on peut faire apparaître les interventions du week-end ? [NL] 1- Jobs slows sur CMS -T2, pb non clarifié à ce jour. Problème depuis 15 jours cms019. 2- L'utilisateur D0 qui a saturé un CE en utilisant JJS. PG a réglé le problème en direct : RR mentionne que ce type d'interaction avec l'utilisateur devrait être traité par l'exploitation / support??. Support : CMS : 1- AFS timeout après l'update des CRLS ? n/a 2- gtfp timeout's : n/a -- voir Yvan ? ATLAS : slow jobs et dégradation du LFC ce week-end : Deux machines de LFC dont l'installation n'était pas homogène : la répartition de la charge - load balancing sur alias non validé. Mais le principe de fonctionnement de lbnamed a masqué le symptôme - puisque il y a avait toujours une machine derrière l'alias. Mettre en place des tests sur toutes les machines FTS et LFC une à une ou test du service seulement --- Définition des critères que l'on peut supporter ??? voir avec David?? prendre en compte "lbnamed"? LS précise qu'un soft "balance" est utilisé pour la haute dispo pour les portes dcap. à suivre [HC] **** AT Grille Tests de glexec en cours. 2 CREAM-CE installés et non surchargés, d'autres en prévision mais avec machines demandées il y a 2 semaines. Sonde Nagios spécifique au Cream WN-BIops - CE toujours en erreur: remonté au niveau du projet? Mise à jour des CAs sur AFS et NagiosBox par Jacques Garnier -- beaucoup de changement dans la liste d'enregistrements. MAJ des CA pour les services et pour dcache. Communiquer à cic-information et à nagiosmaster en sortie. [NL/JG] Renommer l'entrée dans le wiki crl/grille en cacrl/grille et si exploitation valide de demander à crlmaster de mettre à jour la fiche.
    • 7
      Charge et événements prévisibles pour la semaine à venir
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
      Orateur: Tous
      *** ANNONCE de CHARGE DE TRAVAIL [HPSS, ATLAS] Vérifier que les Atlas et HPSS master sont en liaison. [LS] Transfer lents en provenance de BNL problème grave pour Atlas: installation de portes gridftp sour linux : workaround pour augmenter le débit: A vérifier et installation de machines virtuelles gridftp.
    • 8
      Nouvelles des équipes du CC
      Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
      Orateur: Un membre de chaque équipe
      LS arrivée dans l'équipe développement et recrutement en cours dans l'équipe infrastructure.
    • 9
      Divers
      - Identification de la salle machine en panne ? [à faire remonter par les services généraux] - LCG : (notification des alertes NAGIOS par le portail des Operations et d'utiliser les fonctionnalités de Nagios [NL, PG], notamment l'historique pour le debugging). Reporting : Réutiliser l'ancienne focntionnalité des sites reports (?)