Réunion jointe Opération + AT Grille

Name: Réunion jointe Opération + AT Grille
Start: 2009-02-03T16:00:00+01:00
End: 2009-02-03T17:30:00+01:00
Location: IN2P3

mardi 3 févr. 2009, 16:00 → 17:30 Europe/Paris

322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)

Description

Réunion en deux parties: 1. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle. 2. AT Grille Participants: ceux de la réunion AT Grille habituelle.

- 16:00 → 16:30
  
  Incidents et problèmes des VOs (CC, sites français, autres sites) 30m
  
  Sujets Stockage: ------------------- Sujets Exploitation: ------------------------ Arrêt SRM du lundi: SRM core servers to be changed. FTS file transfers from or to IN2P3-CC impossible during this downtime. La ressource u_dcache_egee a ete drainée à cause d'un arrêt par erreur des pools correspondants. Mercredi 28 Janv Forte charge coté HPSS. Cette charge est du à l'action conjointe de différents utilisateurs/groupe et à une activité de staging coté dcache. La ressource HPSS est donc maintenue volontairement basse le temps que la charge se résorbe. Jeudi 28 Janv AP : incident robotique grave Ds l'AP...Un robot bloqué vers un lecteur. Appel SUN et Draine HPSS à 17h38 : Blocage aussi de la librairie SL pour DIVA car impossible de monter des LTO. Ressources liberées vers 1h du matin, mais limité a 600 car il y a toujours des erreurs cote hpss. Le robot revient. Vendredi 29 Janv. HPSS a été redémarré pendant la matinée et les ressources Dcaches ont été drainées pendant cette période. Les 2 services ont été disponibles de nouveau en fin de matinée. La ressource HPSS a été augmentée progressivement pendant le week end. Des jobs de CMS ont été bloqués ~800 et détectés lents par BQS car les requêtes de staging de dCache depuis HPSS étaient suspendues. Elles ont été libérées Dimanche. Sujets Support: ------------------- ATLAS: ====== * Jobs d'analyse: nous avons deja eu dans le passe et encore ce matin des jobs d'analyse qui ne consomment pas du tout de CPU: ils font un "sleep 9600" en debut de job. Ce probleme semble lie a un soft de soumission des jobs grille utilise dans ATLAS (GANGA). Un expert GANGA a ete sollicite pour regarder le probleme. * Problemes de transferts: (David peut developper si necessaire) Le port solicitee de la nouvelle machine FTS etait ferme ce qui faisait que les transferts plantaient si ils arrivaient sur cette machine. Comme 3 machines sont en place avec du load-balancing, ce probleme allait et venait. David a fixe ca aussitot que cela a ete remonte au CC. * Erreur LFC dans les jobs ATLAS : depuis 3 semaines, les jobs atlas etaient episodiquement (~1 p;auqet de jobs chaque semaine) echoues avec l'erreur "Get error: Could not get LFC replica: -1 (lfc_getreplica failed for guid...". Cette erreur a ete remonte a un probleme dans la gestion des proxy (la commande utilisee pour verifier la validite du p[roxy en debut de jobs "voms-proxy-info -exists -valid 24:00" ne marche pas), pas du LFC. Le bug doit etre maintenant fixe mais pas dans une release de production. * Scan de dcache (dcache masters): le scan de dcache des fichiers atlas a revelle 71540 fichiers perdus sur 5.668.588 fichiers Atlas en tout dans atlasdatadisk, atlasmcdisk, atlasgroupdisk, atlaslocalgroupdisk et atlasuserdisk. Le nettoyage de ces fichiers sur /pnfs, LFC et ensuite dans la DB atlas centrale est en cours. Cela devarit nmous eviter les problemes recurents de jobs de production ATLAS pendus car ils cherchent des vieux fichiers perdus. CMS: ==== * Issue with small file sizes (~20MB) affected the transfers, and that has an impact on HPSS was fixed by cleaning up the datasets that contain whose files. The reprocessing of these datasets has been started beginning of this week, after applying the patch in the ProdAgent (CMS production system). to correct an issue on the merge step. * The door of the new FTS machine (that was installed) was closed, this disturbs the transfers that call that door. LHCb: ===== * Nothing to report. Alice: ====== * No report received. AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
  
  Orateur: Tous
- 16:30 → 16:35
  
  Charge et événements prévisibles pour la semaine à venir 5m
  
  Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général.
  
  Orateur: Tous
- 16:35 → 16:40
  
  Nouvelles des équipes du CC 5m
  
  Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
  
  Orateur: Un membre de chaque équipe
- 16:40 → 16:45
  
  break 5m
- 16:45 → 16:55
  
  Etat des projets Grille 10m
  
  - EGEE (Pierre, Rolf) - EGI-DS (Rolf) - IdG (Rolf, Virginie, Yonny) - LCG (Pierre) - Grille régionale (Yonny) et projets en préparation, le cas échéant.
  
  EGEE AAM agenda Bruxelles
- 16:55 → 17:00
  
  Nouvelles des coopérations et de l'IdG 5m
  
  - EELA et participation à la conférence EELA-2 (Cyril) - IdG: * Plan d'embauches * Plan d'investissement * Contacts pour la création d'une grille régionale "Nord de la France"
- 17:00 → 17:05
  
  Affaires administratives 5m
  
  - Missions et absences dans la semaine à venir - Conférences / workshops annoncés
- 17:05 → 17:10
  
  Divers 5m

Choisissez le fuseau horaire

Réunion jointe Opération + AT Grille

322

IN2P3