Réunion jointe Opération + AT Grille
mardi 26 mai 2009 -
16:00
lundi 25 mai 2009
mardi 26 mai 2009
16:00
Incidents et problèmes des VOs (CC, sites français, autres sites)
-
Tous
Incidents et problèmes des VOs (CC, sites français, autres sites)
Tous
16:00 - 16:30
Room: 323
Sujets Exploitation+Stockage: ---------------------------------- le seul point important de la semaine dernière est la réduction de puissance a cause de la chaleur et de notre manque moyen de produire du froid. En ce moment nous avons 10.5 racks (420 machines) cote anastasie et 34 coté pistoo. 37 serveurs dcache ont ete arrêtés hier (serveurs en lecteur pour cmsf et atlas). La température va baisser demain. D'ici-la pas de remise en production de machines. Marc Chuimento a plusieurs actions : - mieux orienter l'air froid vers les Thumpers - accélérer le branchement d'une 2eme armoire de clim en salle teleom - s'assurer que nous pourrions brancher un groupe froid de location sans arrêt du transformateur extérieur et si oui le faire au plus tôt. Nous le garderons jusqu'à la fin des travaux sur le GF4 (mi-juin). - le GF5 sera opérationnel le 2 juin (s'assurer que la date sera bien tenue). Nous voudrions avoir le plus possible de puissance et stockage pour début juin (STEP'09). L'autre point, bien moins important est : ConservativeScratchPolicy=no afin de pouvoir mettre 8 jobs grille sur les idataplex. Sujets Support: ------------------- Alice: ====== * Jobs were running fine except that on workers /var/core were full due aligrid but the local sandbox is created in /scratch/aligridxxxx. It is under study why/how this happened. Atlas: ====== * Pb AFS (pb recurrent [Atlas] #60): la procédure automatique d'installation des release de Atlas a finalement abouti. A suivre: migration de toutes les 160 anciennes versions vers /afs/in2p3.fr/sftggroup/atlas1). Procédure suggérée par Alessandro de Salvo (mail 18/mai/2009): 1) prepare the new area without switching VO_ATLAS_SW_DIR to the new location. 2) copy the old releases from the old area to the new one. 3) relocate the old releases with the script in attachment (usage: atlas_relocate <old_path> <new_path>). 4) set VO_ATLAS_SW_DIR to the new location. * cclcgatlas04: Pb du proxy renewal toujours en cours empêchant de la mettre en production pour PANDA. cclcgatlas02 est toujours la machine de production. * Tests Oracle: des tests Oracle ont été menés pour mesurer la capacité de réponse sur cluster Oracle à la demande des jobs de Atlas. Les tests ont été faits en arrêtant la production habituelle de Atlas dans la semaine du 12 au 16 Mai et en envoyant des jobs de reconstruction de données brutes RAW. la procédure est d'augmenter le nombre de jobs par cycle BQS qui rentrent en machine. Divers problèmes sont apparus dans la soumission habituelle via la grille; ces problèmes ont empêché la soumission des jobs dans les quantités souhaitées par cycle. D'où la décision de continuer les tests en faisant de la soumission locale via qsub. Les tests n'ont pas montré de saturation du cluster Oracle et indique une bonne configuration de l'infrastructure. * [Atlas] #70: installation de serveur xrootd en cours. A retirer de la liste des problemes recurrents selon Ghita car il s'agit d'une demande d'installation de materiel. Cela est frequent et se fait directement avec les services concernes. CMS: ==== * There are several files from dataset which we lost. It will be good to understand why it happens. dcache is looking this. Rest running smoothly. LHCb: ===== * [LHCb] #72 (mauvais score concernant les tests d'acces aux donnees dans dCache): les actions proposées par Lionel sont en cours (cf. document http://cctools2.in2p3.fr/elog/support-lhcb/090520_144151/lhcb-jobs.pdf). * [LHCb] #71 (connection timeout): l'erreur de 'connection timeout' reste à expliquer, mais il n'est plus apparu dans les jobs de merging de LHCb. * Je fais en local des tests simples de 'data access' (ouverture de fichiers sous root via xrootd et gsidcap dans l'environemment LHCb) en prévision d'une campagne de tests de LHCb. L'ouverture fonctionne via gsidcap, mais pas via xrootd à cause d'un problème dans la configuration de dcache (en cours de résolution). * Dirac installé sur ccali dans mon home directory. Problèmes récurrents: ------------------------- –[exploitation] Generic robotic hardware failure http://cctools2/elog/problemes-VO/64 : En cours d’investigation par SUN –[Cms] pb on dcache pool ccdcatsn70 http://cctools2/elog/problemes-VO/73 : « Work around » trouvé - à surveiller –[Atlas] xrootd server http://cctools2/elog/problemes-VO/70 : production due for STEP’09, Demande de configuration de machine à suivre Pour les problèmes en cours suivants merci à Ghita et à ceux qui ont mis à jour le système - svp rajouter les initiales pour le suivi : Maj au 25/05 /09 par Ghita -- [Atlas] installation Athena http://cctools2/elog/problemes-VO/76 – lié à [Atlas] surcharge de serveur afs http://cctools2/elog/problemes-VO/65 Maj au 26/05/09 -- [Lhcb] data access tests via dcache http://cctools2/elog/problemes-VO/72 Maj au 26/05/09 -- Lhcb] « connection time-out » http://cctools2/elog/problemes-VO/71 AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
16:30
Charge et événements prévisibles pour la semaine à venir
-
Tous
Charge et événements prévisibles pour la semaine à venir
Tous
16:30 - 16:35
Room: 323
Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
16:35
Nouvelles des équipes du CC
-
Un membre de chaque équipe
Nouvelles des équipes du CC
Un membre de chaque équipe
16:35 - 16:40
Room: 323
Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
16:40
break
break
16:40 - 16:45
Room: 323
16:45
Etat des projets Grille
Etat des projets Grille
16:45 - 16:50
Room: 323
- EGEE (Rolf)
16:50
Nouvelles des coopérations
Nouvelles des coopérations
16:50 - 16:55
Room: 323
- CILOÉ (Sylvain)
16:55
Affaires administratives
Affaires administratives
16:55 - 17:00
Room: 323
- Missions et absences dans la semaine à venir - Conférences / workshops annoncés
17:00
Transition EGEE / NGI
Transition EGEE / NGI
17:00 - 17:25
Room: 323
Début d'une discussion sur: - Définition préliminaire de la structure ciblée - Acteurs possibles - Rôle du CC
17:25
Divers
Divers
17:25 - 17:30
Room: 323