Réunion jointe Opération + AT Grille
mardi 12 mai 2009 -
16:00
lundi 11 mai 2009
mardi 12 mai 2009
16:00
Incidents et problèmes des VOs (CC, sites français, autres sites)
-
Tous
Incidents et problèmes des VOs (CC, sites français, autres sites)
Tous
16:00 - 16:30
Room: 322
Sujets Exploitation+Stockage: ---------------------------------- Sujets Support: ------------------- Alice: ------ * The jobs do not have BQS problem, but some of them are not using the CPU which is demanded. The problem is under investigation by Alice. Atlas: ------ * /pnfs sur nouvelle VO box: VO box cclcgatlas04 n'avait plus /pnfs/in2p3.fr/data/atlas/ monte (averti par Stephane Jezequel jeudi 7 mai le matin). Pierre Girard : "en principe les VO box doivent montes /pnfs automatiquement; il s'est passe qq-chose; je me renseigne aupres des administrateurs+dcachemaster." A noter que Nelli a remarque la meme anomalie sur cclcgcms04. Pierre a monte /pnfs a nouveau le 7 mai vers midi. ==>> le demontage de pnfs a-t-il ete compris ? * Slow jobs atlas: ~400 jobs atlas qui tournaient sur les WNs d'un rack qui a ete retire de production (probleme de climatisation). Ils etaient toujours RUNNING et sont devenus slow (pas de CPU consommee). cc-atlas (Ghita et Catherine) et Lagaffe ne pouvaient pas les tuer et ces jobs consommaient des ressources selon BQS, donc prenaient des slots contre ATLAS. Intervention de l'equipe exploitation pour tuer ces jobs. ==>> comment se fait-il que ces jobs aient continue a etre running ? * Test Oracle organise cette semaine. but : mesure de charge sur les clusters Oracle du CC avec different type d'acces, de jobs (et de release) lundi : mise en place des tests mardi->vendredi : execution des tests dans la boucle au CC : DB admins (verification de la charge sur les clusters), cc-atlas (regulation du nb de jobs mis en running), dCachemasters (liste de fichiers sur disque et pining pour une semaine), exploitation (mise en place d'une ressource speciale u_OracleStress_atlas administree par Ghita et Catherine). Services touches : a part les clusters Oracle, pas d'activites anormale sur les autres services (HPSS non sollicite du tout) * Nouveau serveur xrootd: le nouveau serveur xrootd demande par ATLAS (ticket de Eric Lancon http://cctools2.in2p3.fr/xoops/modules/xhelp/ticket.php?id=10615) est dans les mains des systemes administrateurs (Xavier). Elle devrait etre delivree a JY pour installer xrootd en fin de semaine. ATLAS souhaite que ce serveur soit completement operationel debut juin pour STEP09 (ceci est une campagne de tests et de stress des systemes pour mettre a profit le retard du LHC). * Installation automatique des releases (AFS): un nouveau test effectue par Alessandro, echoue. Analyse du message d'erreur en cours. * [Atlas] #60: probleme installation Athena toujours en cours. * [Atlas] #65: surcharge serveur AFS (production Atlas). Lie au #60. Probleme resolu avec la replication de la release en question. CMS: ---- * After the shutdown, the reprocessing jobs started to lend slowly to our farm on Wednesday. The pick raised 1500 jobs on Thursday and Friday. Several issues related to data transfers: * New channel with KR_KNU created and it works fine. * After downtime, transfer in Debug instance were faling with error(*) but reason was because pnfs was not accessible. It has been fixed on 7th May. 2009-05-07 10:12:13: FileDownload[17832]: xstats: task=58249949 file=20764873 from=T2_KR_KNU to=T1_FR_CCIN2P3_Buffer priority=5 report-code=1 xfer-code=1 size=2684354560 t-expire=1241717443.8785815691269232066444980234 t-assign=1241684115.48812 t-export=1241684127.72491 t-inxfer=1241684133.97293 t-xfer=1241686759.0065 t-done=1241691133.6534 lfn=/store/PhEDEx_LoadTest07/LoadTest07_Debug_KR_KNU/FR_CCIN2P3/4/LoadTest07_KR_KNU_06_mi6X6Wc43PiSsIvI_4 from-pfn=srm://cluster142.knu.ac.kr:8443/srm/managerv2?SFN=/pnfs/knu.ac.kr/data/cms/LoadTest07/LoadTest07_KNU_06 to-pfn=srm://ccsrm.in2p3.fr:8443/srm/managerv2?SFN=/pnfs/in2p3.fr/data/cms/data/store/PhEDEx_LoadTest07/LoadTest07_Debug_KR_KNU/FR_CCIN2P3/4/LoadTest07_KR_KNU_06_ mi6X6Wc43PiSsIvI_4 detail=(TRANSFER error during TRANSFER phase: [TRANSFER_TIMEOUT] * Several transfers to CCIN2P3 are suffering from an issue with the pool "ccdcatsn070". The pool was restarted. It is a known bug that was seen this month several times: TRANSFER error during TRANSFER phase: [GRIDFTP_ERROR] globus_ftp_client: the server responded with an error 451 Operation failed: FTP Door: got response from '[>pool-cms-hpssdata- sn070a@ccdcatsn070Domain:*@ccdcatsn070Domain:*@dCacheDomain:SrmSpaceManager@spaceManagerDomain:*@spaceManagerDo main:*@dCacheDomain]' with error com.sleepycat.util.RuntimeExceptionWrapper: (JE 3.2.76) Channel closed, may be due to thread interrupt * Several files lost from the dataset: /pnfs/in2p3.fr/data/cms/data/store/data/Commissioning08/Cosmics/RECO/CRAFT_ALL_V9_225-v2/. These files were invalidate. dCache is investigating. * Probleme recurrent "tests SAM specifics VO echouent": Below is the details info given by Nadia about the priority that the SAM test jobs have. Based on these priorities the SAM jobs should bypass all the other jobs so, If I realize any issue in getting the SAM test running I will notify Nadia. Nadia constate, que le user cmsgrid qui soumet les jobs de tests de la VO CMS a une priorité maximale qui passe au dessus du share, donc à chaque instant ses jobs passent avant tous les jobs de CMS. Pour ce qui est du compte de prod, il a aussi un fort objectif : -- Share = T1prod:cmsf@anastasie : CPUShare = 50 ShareMaxRunningJobs = -1 ShareRestricted = yes -- Et donc normalement comme tu le constates il passe avant tous les autres : -- Share = COMMON:cmsf@anastasie : CPUShare = 11 % Share = T2analyse:cmsf@anastasie : CPUShare = 9.5 % Share = T2prod:cmsf@anastasie : CPUShare = 29.5 % -- LHCb: ----- * L'erreur de connection timeout a été reproduite sur certains fichiers mercredi matin (l'heure et le wn ont été notés), mais ca n'a pas été possible de la reproduire jeudi avec les experts dCache. Lionel a contacté dcache avec les infos des logs de mercredi matin. * Pour les jobs d'analyse les experts dCache ne voit rien de particulier dans les log. Pour ce jobs, nous sommes en train de reproduire indépendamment la distribution de wallclock time (obtenue avec Dirac par LHCb). Problèmes récurrents: ------------------------- VO contact ------------- Atlas surcharge d'un serveur AFS http://cctools2/elog/problemes-VO/65 Atlas installation Athena http://cctools2/elog/problemes-VO/54 Lhcb « connection time-out » http://cctools2/elog/problemes-VO/66 CMS SAM jobs priority http://cctools2/elog/problemes-VO/63 Exploitation --------------- Generic robotic hardware failure http://cctools2/elog/problemes-VO/64 Pierre G, exploitation -------------------------- Proxy expiration : Gestion des jobs http://cctools2/elog/problemes-VO/67 Pool mapping http://cctools2/elog/problemes-VO/57 AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
16:30
Charge et événements prévisibles pour la semaine à venir
-
Tous
Charge et événements prévisibles pour la semaine à venir
Tous
16:30 - 16:35
Room: 322
Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
16:35
Nouvelles des équipes du CC
-
Un membre de chaque équipe
Nouvelles des équipes du CC
Un membre de chaque équipe
16:35 - 16:40
Room: 322
Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
16:40
break
break
16:40 - 16:45
Room: 322
16:45
Etat des projets Grille
Etat des projets Grille
16:45 - 16:55
Room: 322
- EGEE (Rolf) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
16:55
Formation et dissémination
-
Virginie, tous
Formation et dissémination
Virginie, tous
16:55 - 17:00
Room: 322
Formations et actions de dissémination passées, en cours, à prévoir.
17:00
Nouvelles des coopérations
Nouvelles des coopérations
17:00 - 17:05
Room: 322
17:05
Affaires administratives
Affaires administratives
17:05 - 17:10
Room: 322
- Missions et absences dans la semaine à venir - Conférences / workshops annoncés
17:10
Divers
Divers
17:10 - 17:15
Room: 322