Réunion jointe Opération + AT Grille

Name: Réunion jointe Opération + AT Grille
Start: 2009-06-16T16:00:00+02:00
End: 2009-06-16T17:30:00+02:00
Location: IN2P3

mardi 16 juin 2009, 16:00 → 17:30 Europe/Paris

322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)

Description

Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.

- 1
  
  Incidents et problèmes des VOs (CC, sites français, autres sites)
  
  Sujets Exploitation+Stockage: ---------------------------------- Mercredi 10 : Incident Dcache. Les serveurs GridFTP se sont desactivés par erreur générant ainsi des transferts SRM en échec donc globalement une interruption des export /import de LHC data. Cela a duré de 3h à 10h30. Le CR est ici : * https://cctools2.in2p3.fr/operations/wiki/doku.php?id=incidents:incidentdcache10062009 Nous n'avons pas pu poser de DT dans la GOC à cause d'un BUG -> ticket ouvert dans GGUS par DB. Incident HPSS. Les ressources HPSS ont été drainée 1 heure ++. Le problème venait d'une opération de réorganisation de la base de métadonné qui à généré des locks sur des enregistrements.On a observé aussi une surcharge sur le serveur RFIO de XROOTD qui a du être redémarré dans la nuit. Dans l'ensemble depuis la fin de la semaine HPSS récupére en stabilisation, la ressource est reguliérement augmentée. Pbm CMS T2 analyse : les jobs ont un comportement imprévisible et lancent le staging de 1 à n fichiers. Cela perturbe donc la'activité d'HPSS et a généré de lourdes charges sur le service. La soumission de ce profil de jobs a été interrompue.CMS en a été informée. Des soumissions ont été possibles avec modération ce week end. Jeudi 11 : Dcache : il y a eu un engorgement lors de transferts inter-pools pour Atlas. Ceci est provoqué par les BringOnLine Atlas (récupération de fichiers sur bandes). Les conséquences peuvent être des ralentissements de transferts dus à la charge sur les machines.Il y a eu des ralentissements dans les transferts. Sujets Support: ------------------- Alice: ====== * Alice jobs are running smoothly. No major pbs. Atlas: ====== * STEP'09: - FTS transferts: quelques problèmes de transferts reliés à des "timeout". En particulier entre Taïwan et Lyon. L'augmentation de la taille moyenne des fichiers transférés pourraient expliquer en partie ces timeouts; La valeur des timouts a été augmentée. Moins de problèmes après cela. Il reste pour le canal ASGC-LYON à comprendre l'asymetrie des transferts entre les 2 sens. - Activité d'analyse: l'activité d'analyse s'est maintenue et renforcée pendant cette période. Des lenteurs ont étaient observées lors des accès à xrootd. En cours d'investigation. - Problème encore et toujours de la soumission des jobs à partir de la vobox d'Atlas. Les jobs se trouvent dans un état unsubmitted. Problème dont on ne sait pas encore s'il est lié avec la vobox, le CE, le batch... - Prestaging et reprocessing; le prestaging de Atlas (commencé le 9 juin) s'est fait sans l'utilisation de TReQs car le module n'était pas encore prêt à être mis entre dcache et HPSS. Il s'est bien passé c'est à dire qu'on n'a pas observé de latence à l'envoi des jobs sur le WN. Reste encore à faire une analyse plus quantitative. - Un problème de dCache: Engorgement des transferts pool-to-pool provoqué par les bringonline de Atlas. Pb connu: les dcachemasters ont corrigé la config. CMS: ==== * T1-T1 transfer: - rate to CC: 211 MB/s - from CC 66 MB/s (transfer errors to ASGC and FZK, they had pbs) * T0-T1 transfer rate: ~6MB/s * No transfer from CC to T2s. No requests from T2s, and dcache masters are telling it will be difficult to perform this test because waiting time of FTS are only 3min. Most of transfer will fail with error "could not prepare files in 180s'. -> dCache suggestion: For massive T2 transfers, the model has to be the same as for jobs: do a prestage before starting transfers so thatfiles will be ready for export. If you do massive transfers w/o prestaging, FTS channels will be full of waiting transfers and this will have impact on Atlas transfers. I am not sure they will be happy with this. * After performing PhEDEx agent pre-stage test we will able to perform T1-T2 test as well, by using PhEDEx agent for this test. * SAM test failure due to the following issues: - GridFTP servers issue. - Differences between local file configuration and CVS: It tuns out that Nelli had some issues to commit the changes that done on the storage.xml file. * Pre-stage test: the last results of the pre-stage test can be find at http://cctools2.in2p3.fr/elog/support-cms/090615_164020/STEP09-pre-stage-test.ppt * Pool bug: both jobs and transfer suffered from the below error, which due to a known pool bug. The temporary solution was to reboot the pools using an automatic file, but the upgrade to a new dcache version that will fix is foreseen. [>pool-cms-hpssdata-sn070a@ccdcatsn070Domain:*@ccdcatsn070Domain:*@dCacheDomain:SrmSpaceManager@spaceManagerDomain:*@spaceManagerDo main:*@dCacheDomain]' with error com.sleepycat.util.RuntimeExceptionWrapper: (JE 3.2.76) IOE during write) LHCb: ===== One week of STEP09 for LHCb from the 8th to the 15th of June * Transfers completed from T0 to Tier-1s for the reprocessing exercise -> OK. * GGUS ticket submitted from LHCb to clean disk space at T1s for the prestaging exercise: disk cleaning completed at IN2P3 -> OK * Failure accessing files on all dCache sites due to the Root 5.22.00a dCache plugin library (voir http://cctools2.in2p3.fr/elog/support-lhcb/15): enabled downloading of input data files to the WN for dCache sites (waiting for the dcap library release) -> happily running 1.5k+ concurrent data processing jobs the Tier-1s. * New dcap library (which solves file accessing problems) officially released -> Installed by Lionel. * Staging of input data successful at 6/7 Tier-1 sites -> OK. * LHCb_MC-DST space full at IN2P3 (GGUS ticket 49414) -> solved : token size increased. * Problem with IN2P3-CNAF transfers: due to the incident on our gridftp server (gridftp doors disabled). * No staging exercise and reprocessing exercise done due the LFC problem at CERN -> LHCb stops STEP09. * Probleme VO #89 ("Mauvais score concernant les tests d'accés aux data avec dcache"): la bande passante sur les serveurs de disque a été augmentée. Luisa va pouvoir lancer des jobs d'analyse pour voir s'il y a des améliorations (voir liste des actions ici: http://cctools2.in2p3.fr/elog/problemes-VO/090526_101126/lhcb-jobs.pdf). Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
  
  Orateur: Tous
- 2
  
  Charge et événements prévisibles pour la semaine à venir
  
  Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
  
  Orateur: Tous
- 3
  
  Nouvelles des équipes du CC
  
  Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
  
  Orateur: Un membre de chaque équipe
- 16:40
  
  break
- 4
  
  Etat des projets Grille
  
  - EGEE (Rolf) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
- 5
  
  Formation et dissémination
  
  Formations et actions de dissémination passées, en cours, à prévoir.
  
  Orateur: Virginie, tous
- 6
  
  Nouvelles des coopérations
  
  - FJKPPL (Yonny)
- 7
  
  Prévisions vacances et continuité des services
- 8
  
  Affaires administratives
  
  - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
- 9
  
  Divers