Name: Réunion jointe Opération + AT Grille
Start: 2010-06-15T16:00:00+02:00
End: 2010-06-15T17:30:00+02:00
Location: IN2P3

Réunion jointe Opération + AT Grille

mardi 15 juin 2010 - 16:00

lundi 14 juin 2010
mardi 15 juin 2010

16:00 Etat des projets Grille
Etat des projets Grille
16:00 - 16:10
Room: 322 - EGI-Inspire - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.

16:10 Nouvelles des coopérations
Nouvelles des coopérations
16:10 - 16:15
Room: 322 - EELA/GISELA - Asie (FJPPL/KEK, FKPPL/KISTI)
16:15 Formation et dissémination - Virginie, tous
Formation et dissémination
- Virginie, tous
16:15 - 16:20
Room: 322 Formations et actions de dissémination passées, en cours, à prévoir.
16:20 Préparations transition ROC Fr --> NGI Fr - Rolf
Préparations transition ROC Fr --> NGI Fr
- Rolf
16:20 - 16:35
Room: 322 - Site web France Grilles (Virginie) - Plan d'organisation des Opérations (Rolf)
16:35 Affaires administratives
Affaires administratives
16:35 - 16:40
Room: 322 - Missions et absences dans la semaine à venir - Conférences / workshops annoncés

16:40 break
break
16:40 - 16:45
Room: 322
16:45 Incidents et problèmes des VOs (CC, sites français, autres sites) - Tous
Incidents et problèmes des VOs (CC, sites français, autres sites)
- Tous
16:45 - 17:15
Room: 322 Sujets Exploitation+Stockage: ---------------------------------- * lundi : probleme AFS avec jobs d0. Il y a du avoir un probleme de charge. Les clients AFS restent pendus (300 connexions "fantomes") bien que les jobs ont été tués et le fileserveur redémarré (du au cache des workers)!! -> blocage de D0 * Mardi: - Arret - En soirée : réouverture progressivede D0 * Mercredi - Petit probleme RFIO -> coupure HPSS de 10:30 à 13:00 * Jeudi Atlas soumet toujours avec les ressources erronées (xrootd alors qu'ils utilisent dcache) crash machine ccexpl -> vu que le lendemain Impact de cette coupure: Environ 22h d'interruption des services suivants: - checkWorkers - lhcalert - mis à jour OVAX - insertion de données dans OVAX ...etc ccsrm02 tombe * Vendredi - ccexpl: bacullemenent vers machine de spare (ccsvli23). Penser à rebasculler dans l'autre sens la semaine prochaine. - Beaucoup de jobs slow d'Alice Sujets Support: ------------------- _ATLAS :_ ========================================================================================= Transferts lents de BNL vers IN2P3 ========================================================================================= Les transferts depuis BNL de fichiers de l'ordre de 4GB prennent environ 2.7MB/s ce qui est très lents. De toute evidence, ce ne sont pas des problèmes liés au réseau. Olivier continue à investiguer ========================================================================================= Changement de ressources Analyse T2 Atlas ========================================================================================= La ressource d'analyse T2 (u_xrootd_atlas) est devenue u_dcache_atlasT2 : utilisation de dcache, abandon de xrootd. Xrootd reste disponible pour l'analyse via PROOF ========================================================================================= Transfert Lyon<->Tokyo ========================================================================================= De nombreux echec pour ces transfert ces deux derniers mois. Une machine a été identifiée comme responsable sans pour autant savoir pourquoi. Elle sera remplacée, et le diagnostic sera recherché offline. _CMS :_ SAM test: - Errors detected by SAM test jobs are impacted the site Readiness. - These errors were seen on 7th and 11th June. Lionel and Evan are aware of this, but they believe that it could be due to a temporary issue on the VOMS server at CERN. _ALICE :_ nombre important de slow jobs ALICE a chaque production massive, ce qui crispe (a juste titre) l'exploitatioin. beaucoup d'entre eux sont lents de par la non-reponse ou lenteur d'acces aux donnees sur stockees certains sites. je developpe un script de monitoring pour essayer de faire une statistique de ce genre de probleme. _LHCb :_ - Les Afs Masters ont changé le type et la version du serveur contenant le toolkit de lhcb. Il n'y a plus eu de timeouts des jobs depuis, mais les tests SAM indiquent toujours une lenteur d'accès à la software area. Plus des détails dans le ticket : https://gus.fzk.de/ws/ticket_info.php?ticket=58283 Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
17:15 Charge et événements prévisibles pour la semaine à venir - Tous
Charge et événements prévisibles pour la semaine à venir
- Tous
17:15 - 17:20
Room: 322 Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
17:20 Nouvelles des équipes du CC - Un membre de chaque équipe
Nouvelles des équipes du CC
- Un membre de chaque équipe
17:20 - 17:25
Room: 322 Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
17:25 Divers
Divers
17:25 - 17:30
Room: 322