********************************************** * Réunion LCG-France Tier1 * 7 décembre 2006 ********************************************** Présents: --------- Rolf, Hélène, David, Sylvain, Gilles, Jonathan, Pierre, Ghita, Lionel Chairman: Rolf Secrétaire: Gilles -- début de la réunion: 9h40 __________________________________________________________________________________________________ -------------------------------------------------------------------------------------------------- Activités des expériences -------------------------------------------------------------------------------------------------- ¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨ * Alice ------- Pas d'info * Atlas ------- [Ghita] Problèmes: Il y a des problèmes dans la VO box car les transferts posent des problèmes, depuis que le changement de dCache -> problème de remplissage des machines, plein de jobs en queue qui occupent de la place et tombent Faible efficacité ces dernières semaines. Positif: Les priorités des jobs marchent bien La situation n'est pas extrêmement bonne, mais simplement car c'est lié à un problème majeur. Depuis la dernière réunion: l'exécuteur pour la production des données française, qui était à Saclay, est maintenant à Lyon et fonctionne. Normalement, il n'y a qu'un seul exécuteur pour la grille dans le monde. C'est une spécificité française d'avoir une copie de cet exécuteur. L'un des avantages est qu'on peut optimiser le remplissage de nos queues * CMS ----- Pas d'info * LHCb ------ [David] Rien de nouveau depuis la dernière réunion Comme tout le monde, LHCb est affecté par les problèmes dCache. [Lionel] Tous les jobs LHCb écrivent dans SRM via dCap Lionel et Nadia ont identifié et corrigé un problème qui bloquait LHCb (problème de configuration) * Exploitation: incidents, consommation, attractivité du site... ---------------------------------------------------------------- [Lionel] Il y a eu 2 types de problèmes dans les jobs: - interface SRM qui ne répondait pas - certains fichiers ont été perdus pour différentes expériences. Pas d'information encore sur la raison de ces pertes. Pose pas de problèmes a priori pour Atlas, pas de réponse de LHCb (10 fichiers environ), CMS doit être relancé. Alice non concerné. La liste des fichiers a été établie. Pour Atlas, ce sont des fichiers qui auraient dûs être copiés dans HPSS. La copie n'a pas été faite, mais dCap a considéré que si... et ne les a plus considérés comme critiques. --- [Ghita] L'espace Semiper d'Atlas a été augmenté à 6TB lundi, le SPS Atlas a été migré sur FPSS. Le but est d'avoir à terme un seul espace pour Atlas, avec meilleure rapidité d'accès --- [Lionel] Des resources BQS pour dCache vont être mises en place, avec Nadia et Suzanne. Il faut définir quelle granularité va être mise pour les ressources. Les gens voulant soumettre des jobs hors-grille en utilisant dCache devront spécifier quelles ressources utiliser. pour l'instant, côté grille, il est impossible de spécifier des ressources. [Sylvain] C'est possible avec gLite. [Lionel] Ce sont des ressources assez spécifiques (granularité fine). Il faut définir la ressource, mais aussi le protocole Il est dommage que BQS permette de définir finement les ressources, et qu'on ne s'en serve pas -> A suivre par Lionel, Sylvain et Pierre. Pistes à explorer pour la prochaine réunion __________________________________________________________________________________________________ -------------------------------------------------------------------------------------------------- Services de Distribution et de Stockage des Données -------------------------------------------------------------------------------------------------- ¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨ le déploiment de dCache 1.7 intéresse et fait peur à la fois... la tendance est à considérer que c'est une installation à problèmes, et chacun attend de voir ce qui se passe avant d'installer [David] a vu passer un ticket GGUS: SARA a eu des problèmes en déployant dCache 1.7 * dCache 1.7: Bilan de l'installation ------------------------------------- [Lionel] Dès l'installation, grosses instabilités sur la partie SRM. la partie dCache fonctionne correctement dCache 1.7 implémente les deux protocoles SRM 1 et SRM 2.1 Problèmes d'instabilité dûs à la charge (Tomcat qui lache, etc) Nous avons maintenant une machine dédiée à SRM (on tourne au total sur 3 machines). La manip a été faite hier, ça marchait hier soir, ce matin dCache est à nouveau planté. Les logs vont être envoyés au support SRM. Il faut maintenant décider combien de temps on reste dans cet état, ou s'il faut envisager un retour en arrière (grosse pression de la part de la production, notamment Atlas) Ca fait 2 semaines que dCache ne fonctionne pas. [Ghita] Un système de prod ne devrait pas planter pendant 15 jours. Le problème est que le système en environnement de tests ne développe pas les même problèmes qu'en prod. Sur d'autres sites, dCache 1.7 fonctionne (DESY, fermilab...) le problème peut venir du fait que nous avons beaucoup de jobs qui font du SRM. [Jonathan] 1.6 et 1.7 ne peuvent pas fonctionner ensemble. Si on revient en arrière, on revient complétement, on ne peut pas avoir un système hybride. [Rolf] on fixe la date de lundi pour prendre une décision. Si d'ici lundi il n'y a pas de nouvelles positives, on fait marche arrière. * Participation du site aux exercices de transfert des données des expériences ------------------------------------------------------------------------------ le test multi-VOs n'a pas commencé. suite aux instabilités dCache, c'est en suspens. [Hélène] Pas de retour particulier de la part de Maarten Litmaath __________________________________________________________________________________________________ -------------------------------------------------------------------------------------------------- Rapport de la réunion du GDB du 6/12/2006 -------------------------------------------------------------------------------------------------- ¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨ [Rolf] L'un des sujets était la table des ressources disponibles Tier-1 et Tier-2. Introduction de la part de Kors Bos (NIKHEF) (cf slides) Parmi les autres sujets: - évolution de Glite sur SL4 - Présentation de Dave Kelsey - Présentation de Piotr Nyczyk sur SAM - Présentation de Jeff Templon sur les pilot jobs Voir l'agenda avec tous les slides: http://indico.cern.ch/conferenceDisplay.py?confId=a057712 __________________________________________________________________________________________________ -------------------------------------------------------------------------------------------------- Divers -------------------------------------------------------------------------------------------------- ¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨ * Prochaine Réunion: Jeudi 11 Janvier 2007 Prochain GDB la veille, le 10 janvier. * Sujets à venir: sites web, accounting, monitoring, réplication de données (projet LCG 3D) -- fin de la réunion: 11h20