Réunion jointe Opération + AT Grille
mardi 22 juin 2010 -
16:00
lundi 21 juin 2010
mardi 22 juin 2010
16:00
Etat des projets Grille
Etat des projets Grille
16:00 - 16:10
Room: 322
- EGI-Inspire - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
16:10
Nouvelles des coopérations
Nouvelles des coopérations
16:10 - 16:15
Room: 322
- EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
16:15
Formation et dissémination
-
Virginie, tous
Formation et dissémination
Virginie, tous
16:15 - 16:20
Room: 322
Formations et actions de dissémination passées, en cours, à prévoir.
16:20
Préparations transition ROC Fr --> NGI Fr
-
Rolf
Préparations transition ROC Fr --> NGI Fr
Rolf
16:20 - 16:35
Room: 322
- Site web France Grilles (Virginie) - Plan d'organisation des Opérations (Rolf)
16:35
Affaires administratives
Affaires administratives
16:35 - 16:40
Room: 322
- Missions et absences dans la semaine à venir - Conférences / workshops annoncés
16:40
break
break
16:40 - 16:45
Room: 322
16:45
Incidents et problèmes des VOs (CC, sites français, autres sites)
-
Tous
Incidents et problèmes des VOs (CC, sites français, autres sites)
Tous
16:45 - 17:15
Room: 322
Sujets Exploitation+Stockage: ---------------------------------- Lundi - Pbm avec les qinit se pose au moment du démarrage des workers. Lié à une modif sur NIS. Corrigé dans l'AP. >qinit ccpl0202 getservbyname :Resource temporarily unavailablefailed to start bqs on ccpl0202.in2p3.fr - Tests de passage de jobs sur le worker ccwl0091 pour valider la mise à jour : kernel + ccautoFS - Pbm avec la ressource u_sps_planck : réduite à 50 suite à un pbm d'accés à leur bande - Sortie du rack dell-lcp08-down Mardi - Test de validation sur cctsli01 : montage,accés bde,soumission d'un job DIVA - Réglages diverses sur la prod (ressources,objectifs: suzanne) - Suite des tests sur ccwl0091 pour validation - Remise en prod de workers Mercredi - Pbm avec le worker ccwl1181 : tous les jobs y sont slow - Remise en prod de machines - rack mis à niveau dell-lcp-08-down Jeudi - Point sur les ressources indisponibles (mail LT) - Bascule de la machine MAGO - Bcp de jobs slow LHC : alice et cms Vendredi - Sortie du rack dell-lcp08-up : a donner aux admins pr mise à niveau. Machine(s) concernée(s) : ccwl0123 ccwl0122 ccwl0121 ccwl0120 ccwl0119 ccwl0118 ccwl0117 ccwl0116 ccwl0115 ccwl0114 ccwl0113 ccwl0112 ccwl0111 ccwl0110 ccwl0109 ccwl0108 ccwl0107 ccwl0106 ccwl0105 ccwl0104 ccwl0103 ccwl0102 ccwl0101 ccwl0100 ccwl0099 ccwl0098 ccwl0097 ccwl0096 ccwl0095 ccwl0094 ccwl0093 ccwl0092 - Remise en prod de machine suite aux mails de yannick Sujets Support: ------------------- CMS : http://cctools.in2p3.fr/elog/support-cms/127 # SAM Tests * Two issues impacted considerably the SAM test results: I) VOMS certificate and II) dCache Pool-Manager I) VOMS certificate: this issue appeared on 5-7th June. It was checked that the update of the CRLs on CC-IN2P3's AFS is done as soon as the update was announced. However, several timeouts have been seen in what concerns the AFS volumes where the CRLs are installed at CC-IN2P3. Neither afsmasters nor dcahcemaster are 100% sure that the timeouts seen on AFS cause the issue, so that I asked CERN to collaborate with us in what follows: * It was checked that only one node (vocms36.cern.ch) from where the jobs are submitted. * The CRLs are installed in another node, from where CRAB jobs serves too. * CERN are still investigating the cause, but they believe that the issue is likely to be explained by the AFS timeouts. II) Pool-Manager issue: this issue appeared this week-end and caused several's gftp timeouts for the export activity, along with the failure of the SAM tests. We have increased the the gftp connections on the disk pools. This helps in improving the export, however the issue is not full understood yet. dCache masters have reported the errors seen during this incident to the dcache expert. ATLAS: ***SLOW JOBS - beaucoup de slow jobs depuis le debut du dernier week-end; une partie a ete reliee a la degradation du service LFC dans la nuit du dimanche a lundi; repare mardi dans la soiree mais pas d'ameliorations visibles sur les jobs lents d'atlas. - plusieurs pistes suivi (distribution non equilibree des fichiers sur les pools ? lecture directe des fichiers sans cp sur le WN ? ...). - toujours en cours d'investigation. ***LFC - inquietant que le service soit degrade sans que les tests/sondes internes du CC ne le detecte. *** ANNONCE ACTIVITE SPECIALE FUTURE - HPSS : prevision de tests de staging par ATLAS-central, la date est "up-to the site" mais nous (atlas au CC) n'avons pas encore decide/discute quoi-que ce soit; le test serait : preferably 1-15 July with little CMS activity, ~16TB to be flushed from disks *** Problème toujours présent des transferts lents depuis BNL. Des tests de Lionel montrent que les transferts sont de l'ordre de 20MB sur une machine de transfert SL4 et de 4MB/s sur une SOLARIS10. ==> à suivre LHCB : Pas de rapport cette semaine ALICE : Pas de rapports cette semaine Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
17:15
Charge et événements prévisibles pour la semaine à venir
-
Tous
Charge et événements prévisibles pour la semaine à venir
Tous
17:15 - 17:20
Room: 322
Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
17:20
Nouvelles des équipes du CC
-
Un membre de chaque équipe
Nouvelles des équipes du CC
Un membre de chaque équipe
17:20 - 17:25
Room: 322
Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
17:25
Divers
Divers
17:25 - 17:30
Room: 322