Réunion jointe Opération + AT Grille

Europe/Paris
322 (IN2P3)

322

IN2P3

Rolf Rumler (CNRS/IN2P3)
Description
Réunion habituellement en deux parties: 1. AT Grille A cause d'un grand nombre de personnes absentes la partie spécifiquement Grille est supprimée cette fois-ci. 2. Opération site CCIN2P3 Participants: représentants de l'exploitation, du support et d'autres selon ordre du jour, plus ceux de la réunion AT Grille habituelle.
Comptes-rendus
    • 1
      Incidents et problèmes des VOs (CC, sites français, autres sites)
      Sujets Exploitation+Stockage: ---------------------------------- - le 05/04 * problème robotique : un main fait des reset et plusieurs volumes sont passés absents pendant le weekend (appel fait par lagaffe). SUN intervient vers 20h, retrouve les volumes et change cette main contre une main du complexe 4. * Suite à ça, HPSS a une désynchronisation PVR/PVL pour les montages de T10KA -> limitation de la ressource hpss a 1500. - le 06/04 : trop de connexions "close wait" sur cchrfrs001 - du a d0 qui reste bloqué de 9h à 15h avec un nombre limité à 700. - le 07/04 : * toujours trop de charge sur le serveur hpss du aux jobs de lebrun. Blocage des jobs et suppression de tous ceux qui n'ont pas consommé de cpu. les hpssmasters vont "prestager" une liste de fichiers que lebrun veut accéder. * 12 workers unreachable dans la nuit - Peu d'éléments sur la cause (voir les mails de Rachid). - le 08/04 * encore 15 workers UNREACHABLE dans la nuit! * la main du LSM 0,1 continue a faire des reset - P. Bert dit que c'est une problème "rail" dans le LSM 0,1. Blocage des lecteurs du LSM 0,1 le matin et main mise InOp dans l'apres-midi. Maintenance du LSM lors de l'arrêt du 13/04. - le 09/04 * le prestaging des fichiers de lebrun est presque terminé : déblocage de lebrun en début d'après-midi. Points importants pour la semaine prochaine : - changement des ressources dcache pour les jobs de prod atlas voir http://cctools2.in2p3.fr/elog/support-atlas/238 - arrêt robotique/hpss le 13/04 Sujets Support: ------------------- Problèmes récurrents: ------------------------- AT Grille généralement: ---------------------------- - CE, BDII, VOMS... - SE, FTS, LFC, SRM, dCache
      Orateur: Tous
    • 2
      Charge et événements prévisibles pour la semaine à venir
      Demandes de production, annonces de transfert, data challenges, arrêts, installations, ... Tout cela uniquement s'il y a un intérêt général. Aussi: des nouvelles des projets Grille, encore uniquement s'il y a un intérêt général. - RAPPEL: chaque intervention même à priori anodine qui pourrait avoir un impact sur la production nécessite un accord du comité de direction à partir du 4/12/2009
      Orateur: Tous
    • 3
      Nouvelles des équipes du CC
      Sujets par équipe, avec un impact potentiel sur l'exploitation. Nouvelles des embauches
      Orateur: Un membre de chaque équipe
    • 4
      Divers