************************ Procédures et outils : ************************ 1) les procédures de validation d'un site ----------------------------------------------------------------- références ---------------------- Procédure pour les sites et les ROC: https://twiki.cern.ch/twiki/bin/view/EGEE/OperationalProceduresforROCsAndSites MoU LCG [1] : https://twiki.cern.ch/twiki/bin/view/LCG/CriticalServiceTargets OLA NGI - SLA EGI [2] : questionnaire en cours - https://documents.egi.eu/public/ShowDocument?docid=58 Site registration policy : https://documents.egi.eu/public/ShowDocument?docid=76 outils : ---------- Base des sites : GOC DB https://goc.gridops.org outils monitoring : - Nagios => Nagios Box de la France : https://ccnagboxli01.in2p3.fr/nagios/ - Gstat : http://gstat-prod.cern.ch/gstat/ldap Comment vérifier avec les outils à disposition et en suivant les procédures établies qu'un site est prêt pour passer en production. Les sites ont des obligations à suivre en terme de disponibilité et fiabilité (voir point 4) et doivent répondre à plusieurs critères avant d'être certifiés . Les différents statuts du site sont enregistrés dans la GOC DB et l'ensemble des ressources du site sont testés par des outils de monitoring tel que Nagios et Gstat. 2) les procédure de détection et suivi de problème : ------------------------------------------------------------------------------------- références ---------------------- Procédure pour les opérateurs régionaux [3] : https://twiki.cern.ch/twiki/bin/view/EGEE/OperationalProceduresforROD Procédure pour les opérateurs centraux [4] : https://twiki.cern.ch/twiki/bin/view/EGEE/OperationalProceduresforCCOD Outils : ---------- Nagios Gstat : Dashboard : http://operations-portal.in2p3.fr A) détection ( Nagios - Gstat) + aggrégation via le dashboard B) création d'un ticket incident : GGUS via le dashboard C) suivi d'un ticket incident : GGUS / dashboard Comment arriver à repérer un problème sur un site . Les outils de monitoring vérifient l'intégrité des ressources d'un site en effectuant de la soumission de jobs et des tests spécifiques aux différents services de ce site. Les résultats sont aggrégés dans un dashboard qui est à la disposition des opérateurs . Les opérateurs en suivant les procédures établies dans EGEE [3] ou spécifiques à leur NGI ouvrent ou non des tickets en conséquence. Ces tickets peuvent être suivis directement dans GGUS ou sur le dashboard. Des délais de traitement et de résolution sont imposés dans la procédure des opérateurs centraux [4] et reflétés dans les outils . 3) création de tickets utilisateur : GGUS + team ticket - alarm ticket ------------------------------------------------------------------------------------- Comment peux ton créer un ticket pour un simple utilisateur ? https://gus.fzk.de/pages/ggus-docs/PDF/1100_Tutorial_on_GGUS-HelpDesk_System.pdf Les procédures de shift pour les VO - Team ticket et Alarm tickets : https://gus.fzk.de/pages/ggus-docs/PDF/1540_FAQ_for_team_tickets.pdf https://gus.fzk.de/pages/ggus-docs/PDF/1560_Alarm_Ticket_Process.pdf 4) analyse post-mortem des opérations : --------------------------------------------------------------------- A) L'accounting Accouting portal : http://www3.egee.cesga.es/gridsite/accounting/CESGA/egee_view.html Vérifier l'usage du CPU / site ou VO. Il s'agit de connaître la consommation CPU sur les sites afin de contrôler les quotas établis ( notamment dans le cadre de LCG) B) le reporting - outil manquant Faire une analyse des problèmes survenus grâce à un outil de synthèse . C) disponibilité - fiabilité Gridview : http://gridview.cern.ch/GRIDVIEW/dt_index.php Il s'agit de connaître la fiabilité des sites afin de vérifier le respect des SLAs / MoU ( [1] et [2] ) 5) Sécurité ----------------- Procédures de sécurité : https://documents.egi.eu/public/ListBy?topicid=31 https://wiki.egi.eu/wiki/EGI_CSIRT:Main_Page Outils : Pakiti : http://pakiti.sf.net/ Comment répondre rapidement et efficacement à une faille de sécurité détecté par Pakiti ? 6) Formation --------------------- "Outils" vo.formation.idgrilles.fr Serveur VOMS Emission de Certificats Procédure ? => Virgnie Comment organiser et systématiser la mise en place de formation ?