dCache: activation du protocole dcap pour LHCb

Europe/Paris
323 (CC-IN2P3)

323

CC-IN2P3

Fabio Hernandez (CC-IN2P3)
Description

Objectif:
Cette réunion a été provoquée par les problèmes récents d'accès aux fichiers LHCb gérés par dCache en utilisant le protocole 'gsidcap'.

Présents:
Luisa Arrabito, Lionel Schwarz, Jonathan Schaeffer, Yvan Calas, Fabio Hernandez

NOTE: cet agenda a été construit à posteriori pour garder une trace de cette discussion.
    • 1
      Rappel du contexte

      Fiabilité insuffisante du protocole gsidcap utilisé par les jobs LHCb s'exécutant sur site pour l'accès aux fichiers gérés par dCache. Cette instabilité pénalise les utilisateurs LHCb. Le site a été banni par l'expérience à partir du 17/12/2009 pour cette raison.
      • Ticket GGUS ouvert par LHCb daté 2009-12-14 13:16 UTC: https://gus.fzk.de/ws/ticket_info.php?ticket=54090
      • Ticket interne développeurs dCache: http://www.dcache.org/rt/index.html?q=5313 (accès restreint). Le problème a été observé par les développeurs mais il n'est pas facile de le reproduire. Il est donc difficile à ce jour d'avoir une estimation du temps nécessaire pour la correction du problème.
      • Ce sujet a été abordé lors des réunions des développeurs dCache avec les représentants des tier-1s WLCG du 15/12/2009 et 05/01/2010. Des symptômes similaires ont été observés à SARA. Voir les minutes de ces réunions à l'adresse http://trac.dcache.org/projects/dcache/wiki/developers-meetings
      • La version dCache v1.9.5-11 déployée le 04/01/2009 ne corrige pas le problème
      • La fréquence d'apparition de ce problème sur notre site est plus élevée que celle observée à SARA, qui rapporte de l'ordre de 2 échecs pour 3000 fichiers accédés.
    • 2
      Discussion

      Nous explorons les conséquences de l'introduction du support du protocole dcap, en particulier:
      • LHCb: comment le logiciel de l'expérience sélectionne-t-il le protocole à utiliser (commande lcg-gt et/ou API GFAL)? L'ajout du protocole 'dcap' à la liste de protocoles supportés par notre instance dCache/SRM serait-il suffisant?

      • Luisa a collecté et synthétisé les informations ci-dessous:
        • Les jobs LHCb s'exécutant sur notre site, comme sur les autres sites supportant l'expérience, sont en mesure d'utiliser les protocoles ci-après, dans l'ordre de préférence: file, dcap, gsidcap, root, rfio
        • Les jobs utilisent une API GFAL (gfal_turlsfromsurls) pour interagir avec le serveur SRM et obtenir le TURL d'un fichier en fonction des protocoles supportés par ce service.
        • Du point de vue LHCb, il suffirait donc que le service SRM annonce le support du protocole dcap pour que le logiciel LHCb puisse l'utiliser, sans modification du logiciel de l'expérience.

      • Tests SAM: y a-t-il des conséquences sur les tests SAM de la VO OPS et ceux spécifiques à LHCb?

      • Il y a 2 types de tests SAM des VOs OPS et LHCb qui ont rapport avec l'accès aux fichiers. D'une part, ceux qui testent l'accès aux fichiers à partir d'un site distant utilisent le protocole gsiftp uniquement. D'autre part, les test SAM qui s'exécutent sur site utilisent l'un des protocoles annoncés.
        Par ailleurs, quelques un de ces tests récupèrent (via lcg-gt) la liste des protocoles supportés pour l'accès à un SURL mais ne déclenchent pas le transfert ou l'ouverture effective du ficher.

      • dCache: quelles modifications sont nécessaires pour activer dcap pour LHCb? Y a-t-il des restrictions/contraintes à intégrer?

      • Le protocole dcap peut être activé et servira à l'accès en read-only aux fichiers par les jobs s'exécutant sur le site. En conséquent, en absence d'identification du client (inhérente au protocole) l'accès en écriture à dCache pour la création de nouveaux fichiers ne sera pas possible. D'autre part, dcap ne peut être utilisé que par les jobs s'exécutant sur les worker nodes et les machines interactives du site.
    • 3
      Conclusions et Calendrier

      Nous avons convenu les actions ci-dessous:
      • [dCache Masters] Le service dCache/SRM sera configuré pour supporter le protocole dcap. Les portes correspondantes seront activées dans l'instance de tests avant leur mise en production.
        Uniquement les jobs s'exécutant sur site pourront utiliser ce protocole pour l'accès aux fichiers gérés par dCache. En conséquence, il n'y a pas besoin de modifier la configuration réseau au niveau de l'ouverture des ports.
        D'autre part, le protocole dcap via SRM sera alors utilisable par toutes les expériences LHC, mais il est attendu qu'uniquement LHCb l'utilise, puisque Atlas et CMS utilisent dcap sans passer par la négociation de protocole SRM et Alice utilise Xrootd.
        Aucun impact négatif n'est attendu pour ces expériences suite à cette reconfiguration, mais les experts locaux de ces expériences seront tenus informés du changement.
      • Date limite: lundi 11/01/2010

      • [Luisa] Une fois les portes dcap configurées, valider que les jobs LHCb peuvent accéder les fichiers en utilisant le protocole dcap.
      • Date limite: mardi 12/01/2010

      • [Luisa] Informer LHCb du changement de configuration afin que le site soit à nouveau considéré utilisable par l'expérience.