visioconférence du groupe SA1-FR d'EGEE ======================================= Date : Mardi 12 février 2008, 14h Présidé par: Pierre Girard Secrétaire: David Bouvet Fonctionnement technique de la visioconférence: http://vacs.in2p3.fr/rms/guide.pdf Prochaine visioconférence : le mardi 11 mars 2008 ***************** * Ordre du jour * ***************** 1) Approbation du compte-rendu de la dernière visioconférence (tous, 5') http://indico.in2p3.fr/materialDisplay.py?materialId=minutes&confId=552 2) Tour des sites (tous, 20') * Sujets particuliers : - Ticket GGUS: https://gus.fzk.de/ws/ticket_search.php?supportunit=ROC_France&status=open&radiotf=1&timeframe=no * Points ROC - Plusieurs candidatures de sites: BRGM, OBSPM, Montpellier - ARM-11: Pour l'instant, tous les noeuds associés à un site de production (GOC DB et Top BDII) sont considérés en production. Discussion en cours pour permettre de déclarer des noeuds hors-production. - Grid Operations Meeting: Fin des SE classiques dans 3 mois * Points IN2P3-CPPM - Statut après le changement de domaine * Points IN2P3-LPC et IN2P3-CC - problèmes avec les jobs de Biomed qui saturent les SEs du LPC et d'Auvergrid et restent bloqués. * Points CGG-Veritas - Problème avec le RB résolu. * Description: La soumission donne l'erreur ci-dessous: "Error while calling the "edg_wll_RegisterJobSync" native api" * Fix: http://goc.grid.sinica.edu.tw/gocwiki/Resource_temporarily_unavailable_-_from_locallogger 3) Fonctionnement de SA1-Fr (Tous, 20') * RAPPEL: - Présentation sur le CE CREAM par Sylvain Reynaud Date prévue: visio du mardi 11 mars. * Journée "Monitoring" - Proposition * Lieu: Lyon * Date: - Découplée de la journée LCG T2/T3 (20 mars à Paris) - Après la journée JoSy sur le même thème (27 mars à Paris) - Hors période de vacances ? début avril ou à partir de mi-mai * Outil collaboratif pour SA1-Fr - Piste proposée par Frédérique: * Outil de gestion de forums: phpBB * ex: http://gdt.in2p3.fr/forum/ * Dossiers en reste: - Formation "Utilisateur/Administrateur" - Testbed pour des sites/noeuds hors production 4) Tour des VOs (5') * EGEODE: - Installation d'un site en test pour EGEODE à ENS Physique à Paris - Assistance aux utilisateurs d'EGEODE de Jussieu 5) Compte-Rendu de LCG France T2/T3 (Frédérique, 5') Retour sur le dernier GDB: http://indico.cern.ch/conferenceDisplay.py?confId=20226 6) Réunions/Conférences (5') - en cours * User Forum, du 11 au 14 février à Clermont-Ferrand http://egee-uf3.healthgrid.org/ - passées * ARM-11 et COD-15, du 5 au 8 février à Lyon http://indico.cern.ch/conferenceDisplay.py?confId=20786 http://indico.cern.ch/conferenceDisplay.py?confId=21867 * WLCG-OSG-EGEE Operations meetings, du 21, 28 janvier, 4 et 11 février 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23805 http://indico.cern.ch/conferenceDisplay.py?confId=23806 http://indico.cern.ch/conferenceDisplay.py?confId=23807 http://indico.cern.ch/conferenceDisplay.py?confId=23808 * LCG-France T2-T3 Technical meeting, du 18 janvier 2008 http://indico.in2p3.fr/conferenceDisplay.py?confId=413 * LCG GDB, du 6 février 2008 au CERN http://indico.cern.ch/conferenceDisplay.py?confId=20226 - à venir * WLCG-OSG-EGEE Operations meetings, du 18 et 25 février, et 3 mars 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23809 http://indico.cern.ch/conferenceDisplay.py?confId=23810 http://indico.cern.ch/conferenceDisplay.py?confId=23811 * ROC managers phone conference, du 19 février 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23754 * LCG-France T2-T3 Technical meeting, du 15 février 2008 http://indico.in2p3.fr/conferenceDisplay.py?confId=414 * LCG GDB, du 5 mars 2008 au CERN http://indico.cern.ch/conferenceDisplay.py?confId=20227 7) Divers (5') * Prochaine visio: le 11 mars 2008. ##################################################################### *********** * Réunion * *********** 0) Liste de présence / site : ------------------------ - Absents annoncés : - CC.IN2P3.FR (2) David Bouvet Pierre Girard - CGG.COM (2) Gerald Vetois Jean-Bernard Favreau - CLERMONT.IN2P3.FR (2) Emmanuel Medernach Jean-Claude Chevaleyre - CPPM.IN2P3.FR (2) Edith Knoops Thierry Mouthuy - DAPNIA.CEA.FR (2) Christine Leroy Zoulikha Georgette - IBCP.FR (0) - IPNL Lyon (3) Denis Pugnere Guillaume Baulieu Yoan Giraud - IPSL / IPGP (1) David Weissenbach - IRES.IN2P3.FR (1) Yannick Patois - LAL.IN2P3.FR (2) Guillaume Philippon Michel Jouvin - LAPP.IN2P3.FR (3) Cécile Barbier Eric Fede Frederique Chollet Le Flour - LPNHE.IN2P3.FR (2) Liliana Martin Laudin Molina - LPSC.IN2P3.FR(2) Bernard Boutherin Christine Gondrand - SUBATECH.IN2P3.FR (1) Jean-Michel Barbet - UREC/CA GRID-FR (0) Total: 24 personnes 1) Approbation du compte-rendu de la dernière visioconférence (tous, 5') ---------------------------------------------------------- http://indico.in2p3.fr/materialDisplay.py?materialId=minutes&confId=552 Approuvé 2) Tour des sites (tous, 20') -------------- * Sujets particuliers : ******************* - Ticket GGUS: https://gus.fzk.de/ws/ticket_search.php?supportunit=ROC_France&status=open&radiotf=1&timeframe=no Pendant OPS meeting, ATLAS a remercié le ROC_FR au sujet d'un problème concernant DPM. Quel problème : DPM ? Michel : il nous remercie de les avoir envoyer promener au sujet de DPM. ATLAS ne fait pas confiance à ce qui est publié dans le BDII, et veut avoir accès aux commandes de gestion de DPM. ATLAS s'est fait taper sur les doigts à ce propos. * Points ROC ********** - Plusieurs candidatures de sites: BRGM, OBSPM, Montpellier Retour de Sophie Nicoud via Montpellier : elle souhaite installer plusieurs sites. - ARM-11: Pour l'instant, tous les noeuds associés à un site de production (GOC DB et Top BDII) sont considérés en production. Discussion en cours pour permettre de déclarer des noeuds hors-production. Proposition de créer un tag "Prod" ou "Test" dans la GOCDB au niveau des noeuds. Ce tag serait utilisé pour filtrer les TopBDII. En cours d'étude de faisabilité. - Grid Operations Meeting: Fin des SE classiques dans 3 mois Si réel besoin de garder un SE classique, il faut nous le faire savoir. * Points IN2P3-CPPM ***************** - Statut après le changement de domaine Changement de réseau : pour raison historique réseau séparé de in2p3.fr. Sur le réseau de la fac à 1G Utilisation local ATLAS importante => 950 Mb sur ce réseau => ultimatum de la fac, vous changer de réseau ou vous diminuer sinon on coupe. La décision de changement a donc été prise jeudi. Le changement de réseau s'est bien passé. Par contre, les changements de certificat ont été plus difficiles : Alice n'était pas disponible jeudi lors de la demande de changement. La question se pose du backup d'Alice. Pierre: Il y a officiellement 2 autres personnes. Mais, ils étaient tous à une AG de l'UREC le jeudi, et n'avaient pas de connexion. Ce problème sera remonté car en cas de problème de sécurité, il est important que qq'un de la CA GRID-FR puisse agir. Edith : Sinon, la délivrance des certificats a été faite le vendredi sans problème. CE : ce matin le CE ne fonctionnait qu'en interne du fait des ports non ouverts au domaine in2p3.fr. DPM : scripts fournis par DPM pour changer les noms de machines ont été lancé ce w-e. Quelques pb de lock sur la base, corrigé en modifiant des paramètres de MySQL. 2 domaines apparaissent dans le chemin des fichiers sur DPM. A vérifier si cela peut poser problème. LFC mis à jour. RB : réinstallation complète VOMS : l'information contenant le DN des certificats n'est pas bonne (n'est pas correctement affichée sur la page web du serveur). sBDII : réinstallation complète sur une machine différente du CE. MON : en cours Reste à tester, et envoyer un broadcast pour informer les utilisateurs. Pierre : nous avons demandé à l'Operations meeting si les alias sur les CEs fonctionnaient. Réponse du CERN : Toutes les tentatives d'alias sur un CE on échoué. Maarten Litmaath : c'est possible, mais pas pour faire du load-balancing. Michel : suite à une discussion avec Maarten => 1 CE avec alias ça marche, 1 alias associé à plusieurs CE réels ça ne marche pas * Points IN2P3-LPC et IN2P3-CC **************************** - problèmes avec les jobs de Biomed qui saturent les SEs du LPC et d'Auvergrid et restent bloqués. Les SE vont mieux car limitation de l'utilisation des SEs par Biomed, et de plus, diminution de l'activité du DC Biomed. Biomed utilisait les 2 SE en parallèle => Biomed faisait sur 1 SE plus de 9000 connexions à l'heure, 10 GO de logs en moins d'une semaine (classique SE) Même chose sur le SE DPM, mais génération des logs moins importante. Sur le SE DPM, /var plein à cause des logs => impossibilité de mettre à jour la base MySQL de DPM et donc impossible d'écrire/lire. Les jobs Biomed ont saturé complètement le SE, plus de 1000 connexions réseaux sur la machine. Les scripts de soumission avaient tendance à ne soumettre que sur notre SE et pas sur les autres SE disponibles à Biomed. => bloquage d'ATLAS qui utilise aussi ce SE. Question : quelles machines pour un SE et quelle config ? 1 SE par VO ? Michel : DPM c'est pire que SE classique au niveau des logs. Base de données peut devenir énorme, donc il faut mettre /var au max du disque ou mettre la base MySQL sur un autre partition avec un symlink. Config standard : 1 machine pour le head node et plusieurs machines pour les disques serveur avec répartition des pools. Pas de SE par VO, mais tu peux dédier certains disques serveurs pour des VO. Question : load balancing entre les disques serveurs ? Michel : load balancing primaire. En lecture pas de load balancing, et en écriture oui. Ca se répartit bien, mais il y a un phénomène de contention lecture/écriture. De +, DPM ne tient pas compte de l'espace vide et donc possible problème sur la répartition des écritures sur les pools. * Points CGG-Veritas ****************** - Problème avec le RB résolu. * Description: La soumission donne l'erreur ci-dessous: "Error while calling the "edg_wll_RegisterJobSync" native api" * Fix: http://goc.grid.sinica.edu.tw/gocwiki/Resource_temporarily_unavailable_-_from_locallogger 5 machines installées à l'ENS. Pierre : il faut qu'ils contactent le ROC_FR pour passer en prod. Pour passer en certifier, il doivent garantir 1 an de fonctionnement. Tour des labos à Jussieu cette semaine. Gérald : rsh et rcp pour les jobs parallèles dans le code de la CGG. Trop lourd à changer dans le code, donc changement de rsh en ssh et rcp en scp au niveau du site pour que ça fonctionne. Pierre : cela semble impossible de faire ce changement sur tous les sites. Commande lcg-infosites pas installée sur tous les WN. 3) Fonctionnement de SA1-Fr (Tous, 20') ------------------------ * RAPPEL: ****** - Présentation sur le CE CREAM par Sylvain Reynaud Date prévue: visio du mardi 11 mars. Présentation de 20 à 45 min => prévoir une réunion SA1-FR plus longue. * Journée "Monitoring" ******************** - Proposition * Lieu: Lyon * Date: - Découplée de la journée LCG T2/T3 (20 mars à Paris) - Après la journée JoSy sur le même thème (27 mars à Paris) - Hors période de vacances ? début avril ou à partir de mi-mai * Outil collaboratif pour SA1-Fr ****************************** - Piste proposée par Frédérique: * Outil de gestion de forums: phpBB * ex: http://gdt.in2p3.fr/forum/ * Dossiers en reste: ****************** - Formation "Utilisateur/Administrateur" - Testbed pour des sites/noeuds hors production 4) Tour des VOs (5') ------------ * EGEODE: ******* - Installation d'un site en test pour EGEODE à ENS Physique à Paris - Assistance aux utilisateurs d'EGEODE de Jussieu 5) Compte-Rendu de LCG France T2/T3 (Frédérique, 5') -------------------------------- Retour sur le dernier GDB: http://indico.cern.ch/conferenceDisplay.py?confId=20226 6) Réunions/Conférences (5') -------------------- - en cours ******** * User Forum, du 11 au 14 février à Clermont-Ferrand http://egee-uf3.healthgrid.org/ - passées ******* * ARM-11 et COD-15, du 5 au 8 février à Lyon http://indico.cern.ch/conferenceDisplay.py?confId=20786 http://indico.cern.ch/conferenceDisplay.py?confId=21867 * WLCG-OSG-EGEE Operations meetings, du 21, 28 janvier, 4 et 11 février 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23805 http://indico.cern.ch/conferenceDisplay.py?confId=23806 http://indico.cern.ch/conferenceDisplay.py?confId=23807 http://indico.cern.ch/conferenceDisplay.py?confId=23808 * LCG-France T2-T3 Technical meeting, du 18 janvier 2008 http://indico.in2p3.fr/conferenceDisplay.py?confId=413 * LCG GDB, du 6 février 2008 au CERN http://indico.cern.ch/conferenceDisplay.py?confId=20226 - à venir ******* * WLCG-OSG-EGEE Operations meetings, du 18 et 25 février, et 3 mars 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23809 http://indico.cern.ch/conferenceDisplay.py?confId=23810 http://indico.cern.ch/conferenceDisplay.py?confId=23811 * ROC managers phone conference, du 19 février 2008 http://indico.cern.ch/conferenceDisplay.py?confId=23754 * LCG-France T2-T3 Technical meeting, du 15 février 2008 http://indico.in2p3.fr/conferenceDisplay.py?confId=414 * LCG GDB, du 5 mars 2008 au CERN http://indico.cern.ch/conferenceDisplay.py?confId=20227 7) Divers (5') ------ LPSC en production depuis janvier. Ca fonctionne bien pour ATLAS. Il y a même eu des transferts. Installation d'une VOBOX ALICE à venir. * Prochaine visio: le 11 mars 2008. Fin: 15:15