Réunion 06/06 Participants : Osman, Cyril, Hélène, Gilles. Secrétaire: Hélène. Prochaine réunion le 21 Juin à 16h00 -------------------------------------------- Généralités et points de la dernière réunion -------------------------------------------- Absences prévisibles GM+CO: 7 Juin et 8 Juin. HC: ras OA: 15 Juin. Missions: -------- Grid2007: hotels à prévoir. deadline reportée. HPDC -- 25 Juin : Annulation EGEE07 : Budapest OA+GM+HC+CO --------------------------- Point du jour --------------------------- Release du 31/05 -- Problème dû au Dashboard: Cause GOC DB2, manque de temps pour faire les tests avant release. notification des sites par mail et page d'info par site. CVS/Loïc: mécanisme automatique rsynch sur cluster. nécessité d'un certificat ssh. next release +gocdb3 pour fin Juin :: mise en place du système ==> avant fin 06. Action: GM à voir aujourd'hui : La bascule sur SVN implique les Italiens et Rafal, à voir. Failover au CNAF le 05 Juin -- Mise à jour des alarmes ne marchait pas du portail CNAF après bascule. (((fonction javascript redirection pour exécuter 1 commande xsql via iframe ------ mécanisme mis en place pour David Collados))) (((Appel Lavoisier problématique avec les download de fichiers ---- voir Sylvain Reynaud))) =======>La communication : broadcast ok. Action: GM à mettre en place une stratégie corrective --->Voir Alfredo sur la conf du serveur Apache --->Voir Alfredo sur le php.ini --->Recenser les changements de fonctionnalités, versions... Le même fichier -- lavoisier connection.php -- semble impliqué dans les symptômes observés par OA et GM --->Voir Sylvain --> Lavoisier --->Voir David Collados --> alarmes --->Faire un failover de test --->Mettre un framework de test SAM alarms impact dans le Dashboard: ---> Update de GGUs et de SAM est une transaction ==> message d'erreur. Ce ne peut être que dans le cas de fonctionnement des outils stables. Si SAM est instable cela ne peut être le cas. Les fonctions parallèles qui permettent de gérer des situations d'administration des alarmes de façon unidirectionnelles, alarmes masquée en boucle..... Il faut une identification des cas de figure et programmer les outils de nettoyage -script- de la base de données de SAM. Action : GM discuter avec GGUS pour ne pas casser le workflow des tickets, en cas de roll-back, cf Guenter. GM pour l'identification et validations des cas de figure. Action :GM : la gestion des Alarmes -- images gridview de l'history des tests -- Piotr/David GM : fonction javascript redirection pour exécuter 1 commande xsql via iframe ------ mécanisme mis en place pour David Collados GM : identification des cas de figure des cas d'instabilité de SAM -- à valider COD/Piotr/David CO : timeout connection dans la SAM DB --- acces dédié. OA : Notification aux sites de la ponderation affectée aux alarmes SAM à mettre en place ? Réunion Du 30 Mai avec PEM/JRR/AC/DD/CIC-INFO --> réplication de la base oracle en temps réel -- stream, copie totale ou différentielle de la DB -- dataguard, RO lourde configuration et maintenance pour le CC ((JRR/PEM)) par rapport au volume de données. JRR et PEM propose comme solution que ils sont critiques en cas de plantage des DB au CC - le délai de remise en service est de 2 heures. Pour l'instant on est en séquentiel. --> en attente du compte-rendu d'Alessandro. Action : CO/OA : définir, gloabiliser et uniformiser les test des procedures de failover des core services (all) + planning. CO/OA : comment détecter qu'un core service doit passer en failover, et rendre transparent chaque composant pour les users qui y accèdent. Objectifs: CO/OA : Plan d'action à diffuser ou une procedure à faire valider par les ROCs. CO : Recommendations des grid core services top-level bdii -- intra ou inter federations //use case VOMS et LFC Biomed. C une responsabilité des sites ou des VOs ?? CIC portal: recupération de l'url du VOMS serveur, possibilité de charger un deuxième url de façon automatique ou manuel ?? décrété non urgent. ENOC integration ? Dump xml RR, CL OK Cyril et CNIL, en cours. Retour de la procédure du CNAF autour du 18/Juin, voir avec Alfredo Tests sur GOCDB3 -- release lié à la GOCDB3 le 25 Juin -- retour des Als le 25 Juin. OA : Comment switcher le DNS en s'assurant de l'accès aux comptes de CICINFO au CNAF. Mettre à jour l'operation procedure : Gilles finit l'operation procedure manual, YAIM DB en cours cf Nicholas. CO: Uniformisation du travail des CIC Requests: --------- 1 --- Vue du COD dashboard/site ou vue des failed tests/site à voir..... -----> A décider le 31/05/07 ---> action sur Gilles 2 --- Scheduled Downtimes des sites/ROCs ---> action sur Gilles/OA ------------------- Actions ------------------ 1) procédure de schédule downtime => OK. 2) working group monitoring pour Cyril. 3) envoyer le work process pour le déploiment à NT/ROC managers. 4) Procaine réunion : stats sur la provenance des requêtes depuis Dec, stats sur le nombre de connexions (dashboard, alert notification) utilisation des nouvelles fonctionnalités ++ rappel de la procédure de traitement des nouvelles requêtes. 5) Atention à une demo demandée pour EGEE07 ----> Si vous revenez après grid2007 sept 24, vous savez quoi faire == thematique oag, cod work.