Réunion jointe Opération + AT Grille
mardi 6 janvier 2009 -
16:00
lundi 5 janvier 2009
mardi 6 janvier 2009
16:00
Incidents et problèmes des VOs (CC, sites français, autres sites)
-
Tous
Incidents et problèmes des VOs (CC, sites français, autres sites)
Tous
16:00 - 16:25
Room: 322
Sujets Stockage: ------------------- Sujets Exploitation: ------------------------ Jobs lents de CMS Sujets Support: ------------------- CMS: ==== * Probleme avec dCache. Farida fera le point durant la reunion. Atlas: ====== * Jobs Atlas: - ATLAS a lance une campagne de reprocessing le 23 decembre (!! eh oui). Pour info, pour cette campagne, les jobs tirent les donnees de dCache et pas de HPSS. Nous n'avons pas note de bloquage pendant les vacances, ou le flot de jobs restait a un petit niveau (~600 jobs running). Nous avons toutefois note que les jobs demandent beaucoup de memoire (ces jobs travaillent sur des vraies donnees du detecteur qui ne reflettent pas les vraies donnees de detecteur en mode de collision du LHC). La memoire monte jusqu'a plus de 2.88 GB, le maximum de tolerance de BQS pour les jobs de ATLAS. 2.9 GB est en principe OK pour absorber les jobs de ATLAS, ce n'est pas BQS qui est mal configure, mais plutot les jobs de ATLAS. Ces problemes de memoire ont en particulier crees des cores sur les worker nodes. Nous sommes en contact avec Bernard Chambon pour cela. Comme tous les jobs de ATLAS sont "les memes", nous avons aussi eu des problemes de charge : nous avons augmente le nombre de jobs en execution hier vers 13h00. D'ou (je suppose) l'apparition des problemes de charge. - dcache : un fichier necessaire a tous les jobs (qui donnent des donnes pour les calibration) a ete accede un tres grand nombre de fois, ce qui a surcharge le pool hebergeant ce fichier. Lionel a fait 15 repliques a la main pour palier le probleme. Question : est-ce qu'il y a eu un probleme dans le mecanisme de replication automatique de ce fichier ? - release ATLAS : la release utilisee pour le reprocessing a ete installe le samedi 20 decembre et n'a pas ete replique (le mecanisme de replique automatique n'est pas mis en place encore et personne n'a averti afsmaster de cette installation). Aujourd'hui un grand nombre de jobs ATLAS tournait et le serveur AFS servant cette release a ete surcharge. Xavier est en train de faire un copie RO et la replication. Probleme compris et en passe d'etre resolu. * Disparition de fichiers dans dCache juste avant l'arret de Noel. Atlas ne connait pas la raison de la perte de ces fichiers. Cela montre la necessite de faire un scan de tous les fihciers dans dCache pour voir lesquels ont disparu et essayer d'en comprendre la raison. AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
16:25
Charge et événements prévisibles pour la semaine à venir
-
Tous
Charge et événements prévisibles pour la semaine à venir
Tous
16:25 - 16:35
Room: 322
Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
16:35
Nouvelles des équipes du CC
-
Un membre de chaque équipe
Nouvelles des équipes du CC
Un membre de chaque équipe
16:35 - 16:40
Room: 322
Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvel arrivant Marcos Lins à partir du 15/1/2009 (équipe Développement) Nouvelles des embauches
16:40
break
break
16:40 - 16:45
Room: 322
16:45
Etat des projets Grille
Etat des projets Grille
16:45 - 16:55
Room: 322
- EGEE (Pierre) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
16:55
Nouvelles des coopérations
Nouvelles des coopérations
16:55 - 17:00
Room: 322
17:00
Affaires administratives
Affaires administratives
17:00 - 17:05
Room: 322
- Missions et absences dans la semaine à venir - Conférences / workshops annoncés
17:05
Divers
Divers
17:05 - 17:10
Room: 322