Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

helene Cordier (CNRS/IN2P3)
Description
Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.
Reunion AT grille du 12 Mai 2009 Présents : SP, JS, DB, YC, PG, HC Sujets Exploitation: ------------------------ Ras à l'exception de l'arrêt du CC du 03 Mai et de la capacité de production réduite suite à l'alerte clim du 6 Mai. Sujets Support: -------------------- --Alice : en attente des résultats d'investigation par Alice --Atlas/Cms: - montage pnfs sur les VOBox systématique lors de l'installation de nouvelles VO Box : Problème ponctuel réglé par Pierre Girard et FAQ mis à jour. Seul Pierre procède à ces installations. - jobs en RUNNING lors de l'arrêt du rack le 06/05/09 puis "SLOW" le 07/05/09 : Problème ponctuel réglé par : 1/la consigne dans la procédure d'urgence de passer l'option "-f" pour forcer l'arrêt des jobs lors de l'arrêt électrique de machines [SP]. 2/la consigne pour le support de regarder " manuellement" les "jobs slow" le lendemain d'arrêt électrique pour le signaler à l'exploitation [YC] en attendant 3/l'écriture d'une sonde Nagios détectant un seuil anormal de job slow [MH]. - Tests oracle : info - Nouvelle configuration : demande de serveur xrootd en date du 24/04/09 à suivre car ce dernier doit être operationnel pour STEP 09 : http://cctools2/elog/problemes-VO/?id=70 - Atlas installation Athena [Atlas] #54 toujours en cours suite à test d'Alessandro di Salvo. - Atlas et surcharge de serveurs AFS : [Atlas] #65: surcharge serveur AFS (production Atlas). Lie au #60. Probleme resolu avec la replication de la release en question. Ce processus doit être automatisé et sécurisé par #60. En attendant, la réplication de la release doit être demandée au coup par coup par Atlas - passage de RO en RW - pour éviter la surcharge des serveurs AFS - et qu'Atlas soit lui-même pénalisé. --CMS : - transfers to CCIN2P3: le pool "ccdcatsn070" donne le message d'erreur suivant: TRANSFER error during TRANSFER phase: [GRIDFTP_ERROR] globus_ftp_client: the server responded with an error 451 Operation failed: FTP Door: got response from '[>pool-cms-hpssdata sn070a@ccdcatsn070Domain:*@ccdcatsn070Domain:*@dCacheDomain:SrmSpaceManager@spaceManagerDomain:*@spaceManagerDo main:*@dCacheDomain]' with error com.sleepycat.util.RuntimeExceptionWrapper: (JE 3.2.76) Channel closed, may be due to thread interrupt Le problème se produit depuis longtemps et n'est pas identifié; il est réglé par un redémarrage par cron de ce pool. Voir si le problème est reproductible après le passage à la dernière version de dcache cet été avant de le signaler éventuellement à dcache.org - les tests spécifiques cms : l'attribution de nouvelles priorités à cmsgrid semble avoir résolu le pb depuis fin Avril. Le pb récurrent [CMS]#69 est fermé. --Lhcb Lhcb « connection time-out » [Lhcb]#71 en cours Lhcb diagnostic des essais d'accès aux données [Lhcb]#72 ouvert --Problèmes récurrents autres Generic robotic hardware failure http://cctools2/elog/problemes-VO/64 : En cours d'identification et necessité de prendre de nouvelles traces lors du prochain arrêt début Juin ( A confirmer par l'exploitation) Proxy expiration : Gestion des jobs http://cctools2/elog/problemes-VO/67 Voir avec Bernard Chambon Pool mapping http://cctools2/elog/problemes-VO/57 voir avec NL pour estimation du nombre de comptes demandé --AT Grille généralement glexec : installation locale sur les wns en prod pour lhcb ( IN2P3-CC site pilote). Pierre demande à ce que l'exploitation le prévienne lors du redémarrage des machines ( suite à l'arrêt du 06 Mai). Le script d'installation de nouvelles machines comprendra ce somposant: Le resultat semble peu concluant pour LhCB qui a fait un retour par RS. Pierre doit faire une liste de bugs détaillée, mais en substance, le retour sur le fait de ne pas mettre en production glexec rapidemment est remonté à Fabio pour le GDB du 13 Mai. Le déploiement et le fonctionnement de se composant seulement sans parler de scas n'est pas concluant pour lhcb et le CC. Cependant l'ouverture à US-Atlas est prévue pour une utilisation de scas en l'état. --A Venir Arrêt prévu du batch le 19 mai (suite à coupure clim de plus d'1h) Arrêt HPSS prévu la première semaine de Juin. Possibilité pour Sun d'intervenir pour effectuer une nouvelle prise de logs afin de régler le pb robotique ( incidents d'Avril) apparamment liés au microcode. -- Etat des projets Grille EGEE-LCG : RAS EGI-DS : RAS IdG : RAS Grille Régionale : Serveur IRODS au CC pour la grille regionale en phase finale de test par 4 groupes de chercheurs de Creatis. Demande officielle au CC pour que ces données soient sauvegardées et que le serveur IRODS passe en production. Projet régional qui démarre cette semaine : Laboratoire biomédical lié à Creatis. Yonny donnera plus de nouvelles à la prochaine réunion. --Formation Prochaines formations organisées : 10-15 mai : Biomed Grid School, Varennes, Italie 8-19 juin : Ecole d'été 09 CEA-EDF-INRIA, St Lambert des Bois 5-17 juillet : Ecole d'été ISSGC'09, Sophia Antipolis 28-29 juillet : EGEODE, Villefranche sur Mer Formations en cours d'organisation : Formation utilisateurs, d'ici mi-juillet, vraisemblablement sur Paris J'attends des confirmations / demandes de David W., Monique P. Formation administrateurs gLite En cours de discussion, notamment avec Healthgrid. (Rolf et Pierre sont au courant) --Workshop scientifique au KEK au Japon le 19-20-21 Yonny présente la collaboration dans le cadre LIA portant sur 1/ glite/Nareggi: interoperabilité avec Jsaga et 2/ Irods -- LCGFR 18/19 DB, CO, HC FJKKPL 19/21 KEK YC Congés du 22 au 29 conges YC. Congés 22/05/09 PG, HC
Il y a un compte-rendu associé à cet événement. Les afficher.
    • 16:00 16:30
      Incidents et problèmes des VOs (CC, sites français, autres sites) 30m
      Sujets Exploitation+Stockage: ---------------------------------- Sujets Support: ------------------- Alice: ------ * The jobs do not have BQS problem, but some of them are not using the CPU which is demanded. The problem is under investigation by Alice. Atlas: ------ * /pnfs sur nouvelle VO box: VO box cclcgatlas04 n'avait plus /pnfs/in2p3.fr/data/atlas/ monte (averti par Stephane Jezequel jeudi 7 mai le matin). Pierre Girard : "en principe les VO box doivent montes /pnfs automatiquement; il s'est passe qq-chose; je me renseigne aupres des administrateurs+dcachemaster." A noter que Nelli a remarque la meme anomalie sur cclcgcms04. Pierre a monte /pnfs a nouveau le 7 mai vers midi. ==>> le demontage de pnfs a-t-il ete compris ? * Slow jobs atlas: ~400 jobs atlas qui tournaient sur les WNs d'un rack qui a ete retire de production (probleme de climatisation). Ils etaient toujours RUNNING et sont devenus slow (pas de CPU consommee). cc-atlas (Ghita et Catherine) et Lagaffe ne pouvaient pas les tuer et ces jobs consommaient des ressources selon BQS, donc prenaient des slots contre ATLAS. Intervention de l'equipe exploitation pour tuer ces jobs. ==>> comment se fait-il que ces jobs aient continue a etre running ? * Test Oracle organise cette semaine. but : mesure de charge sur les clusters Oracle du CC avec different type d'acces, de jobs (et de release) lundi : mise en place des tests mardi->vendredi : execution des tests dans la boucle au CC : DB admins (verification de la charge sur les clusters), cc-atlas (regulation du nb de jobs mis en running), dCachemasters (liste de fichiers sur disque et pining pour une semaine), exploitation (mise en place d'une ressource speciale u_OracleStress_atlas administree par Ghita et Catherine). Services touches : a part les clusters Oracle, pas d'activites anormale sur les autres services (HPSS non sollicite du tout) * Nouveau serveur xrootd: le nouveau serveur xrootd demande par ATLAS (ticket de Eric Lancon http://cctools2.in2p3.fr/xoops/modules/xhelp/ticket.php?id=10615) est dans les mains des systemes administrateurs (Xavier). Elle devrait etre delivree a JY pour installer xrootd en fin de semaine. ATLAS souhaite que ce serveur soit completement operationel debut juin pour STEP09 (ceci est une campagne de tests et de stress des systemes pour mettre a profit le retard du LHC). * Installation automatique des releases (AFS): un nouveau test effectue par Alessandro, echoue. Analyse du message d'erreur en cours. * [Atlas] #60: probleme installation Athena toujours en cours. * [Atlas] #65: surcharge serveur AFS (production Atlas). Lie au #60. Probleme resolu avec la replication de la release en question. CMS: ---- * After the shutdown, the reprocessing jobs started to lend slowly to our farm on Wednesday. The pick raised 1500 jobs on Thursday and Friday. Several issues related to data transfers: * New channel with KR_KNU created and it works fine. * After downtime, transfer in Debug instance were faling with error(*) but reason was because pnfs was not accessible. It has been fixed on 7th May. 2009-05-07 10:12:13: FileDownload[17832]: xstats: task=58249949 file=20764873 from=T2_KR_KNU to=T1_FR_CCIN2P3_Buffer priority=5 report-code=1 xfer-code=1 size=2684354560 t-expire=1241717443.8785815691269232066444980234 t-assign=1241684115.48812 t-export=1241684127.72491 t-inxfer=1241684133.97293 t-xfer=1241686759.0065 t-done=1241691133.6534 lfn=/store/PhEDEx_LoadTest07/LoadTest07_Debug_KR_KNU/FR_CCIN2P3/4/LoadTest07_KR_KNU_06_mi6X6Wc43PiSsIvI_4 from-pfn=srm://cluster142.knu.ac.kr:8443/srm/managerv2?SFN=/pnfs/knu.ac.kr/data/cms/LoadTest07/LoadTest07_KNU_06 to-pfn=srm://ccsrm.in2p3.fr:8443/srm/managerv2?SFN=/pnfs/in2p3.fr/data/cms/data/store/PhEDEx_LoadTest07/LoadTest07_Debug_KR_KNU/FR_CCIN2P3/4/LoadTest07_KR_KNU_06_ mi6X6Wc43PiSsIvI_4 detail=(TRANSFER error during TRANSFER phase: [TRANSFER_TIMEOUT] * Several transfers to CCIN2P3 are suffering from an issue with the pool "ccdcatsn070". The pool was restarted. It is a known bug that was seen this month several times: TRANSFER error during TRANSFER phase: [GRIDFTP_ERROR] globus_ftp_client: the server responded with an error 451 Operation failed: FTP Door: got response from '[>pool-cms-hpssdata- sn070a@ccdcatsn070Domain:*@ccdcatsn070Domain:*@dCacheDomain:SrmSpaceManager@spaceManagerDomain:*@spaceManagerDo main:*@dCacheDomain]' with error com.sleepycat.util.RuntimeExceptionWrapper: (JE 3.2.76) Channel closed, may be due to thread interrupt * Several files lost from the dataset: /pnfs/in2p3.fr/data/cms/data/store/data/Commissioning08/Cosmics/RECO/CRAFT_ALL_V9_225-v2/. These files were invalidate. dCache is investigating. * Probleme recurrent "tests SAM specifics VO echouent": Below is the details info given by Nadia about the priority that the SAM test jobs have. Based on these priorities the SAM jobs should bypass all the other jobs so, If I realize any issue in getting the SAM test running I will notify Nadia. Nadia constate, que le user cmsgrid qui soumet les jobs de tests de la VO CMS a une priorité maximale qui passe au dessus du share, donc à chaque instant ses jobs passent avant tous les jobs de CMS. Pour ce qui est du compte de prod, il a aussi un fort objectif : -- Share = T1prod:cmsf@anastasie : CPUShare = 50 ShareMaxRunningJobs = -1 ShareRestricted = yes -- Et donc normalement comme tu le constates il passe avant tous les autres : -- Share = COMMON:cmsf@anastasie : CPUShare = 11 % Share = T2analyse:cmsf@anastasie : CPUShare = 9.5 % Share = T2prod:cmsf@anastasie : CPUShare = 29.5 % -- LHCb: ----- * L'erreur de connection timeout a été reproduite sur certains fichiers mercredi matin (l'heure et le wn ont été notés), mais ca n'a pas été possible de la reproduire jeudi avec les experts dCache. Lionel a contacté dcache avec les infos des logs de mercredi matin. * Pour les jobs d'analyse les experts dCache ne voit rien de particulier dans les log. Pour ce jobs, nous sommes en train de reproduire indépendamment la distribution de wallclock time (obtenue avec Dirac par LHCb). Problèmes récurrents: ------------------------- VO contact ------------- Atlas surcharge d'un serveur AFS http://cctools2/elog/problemes-VO/65 Atlas installation Athena http://cctools2/elog/problemes-VO/54 Lhcb « connection time-out » http://cctools2/elog/problemes-VO/66 CMS SAM jobs priority http://cctools2/elog/problemes-VO/63 Exploitation --------------- Generic robotic hardware failure http://cctools2/elog/problemes-VO/64 Pierre G, exploitation -------------------------- Proxy expiration : Gestion des jobs http://cctools2/elog/problemes-VO/67 Pool mapping http://cctools2/elog/problemes-VO/57 AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
    • 16:30 16:35
      Charge et événements prévisibles pour la semaine à venir 5m
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
      Orateur: Tous
    • 16:35 16:40
      Nouvelles des équipes du CC 5m
      Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
      Orateur: Un membre de chaque équipe
    • 16:40 16:45
      break 5m
    • 16:45 16:55
      Etat des projets Grille 10m
      - EGEE (Rolf) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
    • 16:55 17:00
      Formation et dissémination 5m
      Formations et actions de dissémination passées, en cours, à prévoir.
      Orateur: Virginie, tous
    • 17:00 17:05
      Nouvelles des coopérations 5m
    • 17:05 17:10
      Affaires administratives 5m
      - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
    • 17:10 17:15
      Divers 5m