Trouver un boson de Higgs dans une botte de foin

par Andrew Purcell1 et Alberto Pace2
Comme l’a montré l’article qui précède, la météorologie augmente rapidement sa capacité de gérer et de distribuer le volume croissant de données et d’informations produites par les Membres de l’OMM et diverses organisations. Il va de soi que d’autres branches scientifiques et techniques cherchent, elles aussi, le meilleur moyen de structurer d’énormes quantités de données. Et comme l’OMM, elles relèvent ce défi en mettant à profit l’expansion du réseau Internet, l’augmentation de la
puissance des ordinateurs et l’affinement des logiciels.
Nous verrons ici quelle stratégie a adoptée l’Organisation européenne pour la recherche nucléaire, mieux connue sous son acronyme CERN, qui se trouve à quelques kilomètres seulement du siège de l’OMM à Genève. Si les besoins du CERN en matière de gestion des données diffèrent à bien des égards de ceux de la météorologie, il est intéressant de comparer sa stratégie à l’approche mise en oeuvre par le Système d’information de l’OMM.
Lorsque des particules entrent en collision, les données explosent. Le Grand collisionneur de hadrons (LHC) du CERN produit un million de gigaoctets de données par seconde. Même en ne conservant que les plus intéressantes, grâce à des systèmes de filtrage très poussés, le CERN doit gérer au-delà de 25 millions de gigaoctets de données chaque année — ce qui équivaut à plus de 5 millions de DVD. L’analyse à effectuer pour extraire une information utile est une entreprise colossale qui exige une collaboration à l’échelle mondiale. Peu d’organisations sont sans doute confrontées à un défi aussi grand, mais d’importants enseignements peuvent être tirés de la façon dont le CERN gère ces données.
![]() |
La Grille ne dort jamais: le 1er janvier 2013, juste après minuit, quelque 250 000 tâches étaient exécutées simultanément.
|
Les systèmes informatiques utilisés par la science reposent sur trois piliers:
- Le traitement — De nombreux processeurs sont parfois nécessaires pour transformer et analyser les données issues d’un projet de recherche particulier. L’analyse des données provenant du LHC, par exemple, requiert une puissance informatique équivalant à 300 000 coeurs de processeurs des ordinateurs personnels les plus rapides offerts aujourd’hui.
- La mise en réseau — Il faut absolument disposer d’un réseau rapide, avec une grande largeur de bande vers Internet, pour que les centres et laboratoires de recherche disséminés sur la planète aient accès à l’infrastructure informatique.
- La gestion des données — Les données doivent être stockées, transférées au moment opportun vers les ressources informatiques disponibles et transmises à une multitude d’utilisateurs (universités, centres de recherche, etc.). La conservation à long terme peut aussi être cruciale.
Les ordinateurs sont des outils indispensables dans presque toutes les branches scientifiques, mais ils n’ont jamais été aussi intégrés à la recherche qu’aujourd’hui. Par le passé, la science se servait surtout de l’informatique pour traiter l’information, mais les technologies de stockage, traitement, distribution et conservation à long terme ont beaucoup évolué ces dernières années. Le CERN a profité de cette évolution, à laquelle il a d’ailleurs contribué; la stratégie qu’il a mise en oeuvre est un parfait exemple de la façon de gérer efficacement des volumes considérables de données scientifiques.
Un ordinateur planétaire
Le Centre de données du CERN héberge 88 000 coeurs de processeurs qui sont alimentés par une infrastructure de 3,5 mégawatts. En dépit de ces chiffres impressionnants, il détient seulement 15 % de la puissance de calcul nécessaire pour traiter la multitude de données produites par le LHC, même après que des algorithmes de filtrage complexes en ont supprimé 99 % environ.
Il était clair, dès la fin des années 1990, que le volume de données attendues du LHC excéderait de beaucoup la puissance de calcul détenue sur place. C’est pourquoi le CERN a lancé en 2001 le projet de Grille de calcul mondiale pour le LHC (WLCG); il s’agit d’un réseau qui relie les installations de traitement et de stockage de plus de 150 centres répartis dans près de 40 pays. Le service a débuté en 2003 et le réseau s’est renforcé en augmentant pas à pas sa performance. L’inauguration officielle a eu lieu en 2008. La Grille est utilisée aujourd’hui par quelque 10 000 physiciens et permet en moyenne d’exécuter simultanément au-delà de 250 000 tâches.
La force du nombre
La Grille WLCG comprend plusieurs niveaux. Une première copie de toutes les données est stockée au CERN lui-même (niveau 0). De là, une deuxième copie est envoyée à onze grands centres de données dans le monde (niveau 1). Les centres de Russie et de Corée du Sud devraient bientôt rejoindre la Grille, portant à treize le nombre de sites qui composent le niveau 1.
![]() |
La manutention des bandes magnétiques est entièrement automatique. Dans les salles d’archivage, des bras robotisés transportent les cartouches entre les étagères et les lecteurs. Plus de 100 pétaoctets de données y sont stockées en permanence, l’équivalent de 700 ans de films en haute définition. - CERN
|
Les centres de niveau 1 se chargent de l’archivage à long terme et procèdent à un deuxième traitement des données. Chacun d’eux est relié à plusieurs sites (niveau 2) qui se trouvent généralement dans la même région du globe. Il existe ainsi quelque 140 sites de niveau 2. La plupart sont des départements d’universités ou des laboratoires de physique qui, en dépit de leur taille modeste, fournissent régulièrement plus de la moitié des ressources totales. C’est là que s’effectue vraiment l’analyse des données physiques.
Le CERN et le Centre de recherche Wigner pour la physique ont inauguré cette année à Budapest, Hongrie, une extension du Centre de données du CERN. Environ 500 serveurs, 20 000 coeurs de processeurs et 5,5 pétaoctets de stockage sont déjà opérationnels sur le site. Les liaisons réservées et redondantes de 100 gigaoctets par seconde qui relient les deux emplacements sont fonctionnelles depuis février 2013 et comptent parmi les premières liaisons transnationales réalisées sur une telle distance. Les installations du centre Wigner, gérées à distance depuis le CERN, augmentent notablement les capacités du niveau 0.
La circulation des données
Dans un vaste réseau informatique réparti, c’est la distance entre les installations de calcul et les lieux de stockage qui limite le plus les opérations de traitement. De grands volumes de données doivent être transférés, souvent par le réseau Internet des universités ou par des réseaux privés à fibres optiques, ce qui crée des délais pendant lesquels certaines unités ne fonctionnent pas. Il est donc essentiel d’établir une bonne stratégie de répartition des données pour exploiter pleinement les ressources informatiques à tout moment.
L’efficacité globale est largement tributaire des méthodes de mise en cache des données et de la vitesse de passage de la mémoire hors ligne à la mémoire en ligne, du site distant au site local, du serveur au disque local et du disque local à la mémoire vive. De même, les techniques employées pour corriger les erreurs et copier les données peuvent conditionner largement la disponibilité et la fiabilité. Pour toutes ces raisons, les opérations de calcul scientifique d’envergure requièrent une bonne gestion des données — architecture, règles et procédures régissant l’ensemble des activités et la durée de vie des données.
Les flux de données peuvent être extrêmement complexes au sein de grands projets de recherche, quand on effectue des copies dans de nombreux sites afin de réduire les risques de perte advenant un incident majeur, d’accroître le nombre de coeurs de processeurs capables de traiter les données simultanément ou d’augmenter le débit dans le cas de transfert à la demande (plusieurs copies pouvant fournir les données en parallèle).
Les groupes d’unités de stockage
Les expériences de physique réalisées avec le LHC au CERN donnent un bon exemple de ces techniques de gestion des données. Les résultats de ces expériences passent régulièrement d’un groupe d’unités de stockage à l’autre, que ce soit pour réduire les coûts ou parce que la qualité du service diffère. Un groupe reposant sur des disques à circuits intégrés, de multiples copies des données et un réseau rapide peut servir, par exemple, à stocker des données brutes de grande valeur qui n’ont pas encore été analysées. Lorsque le traitement est terminé, les mêmes données sont envoyées dans un centre d’archivage à faible coût mais à temps d’attente élevé, quand la fiabilité à long terme est l’élément crucial. De même, certains résultats intermédiaires de l’analyse, qu’il est possible de recalculer en cas de perte, seront sans doute dirigés vers une installation de stockage temporaire à temps d’attente court, haut débit, faible coût et fiabilité moindre, appelée «espace de travail».
La gestion des données issues des expériences LHC est bien sûr beaucoup plus complexe que ne le laisse supposer cette rapide esquisse et recourt toujours à des groupes d’unités de stockage offrant une qualité de service différente (sur le plan de la fiabilité, de la performance et du coût). Divers outils sont également nécessaires pour traiter et transférer les données d’un groupe à l’autre.
La nécessité de disposer d’une architecture de stockage composite pour gérer efficacement les multiples flux de données issues de la recherche scientifique est évidente; le moindre ordinateur renferme déjà plusieurs types de mémoires: caches de niveau 1 et 2, mémoire vive, disque dur. Simplifier le système pour n’utiliser qu’un seul type de mémoire entraînerait sûrement des problèmes.
Regrouper les groupes?
L’obligation de disposer de nombreux groupes offrant une qualité particulière de service est sans doute ce qui distingue le plus le «stockage en nuage» et le «stockage en volume» pour gérer de grandes quantités de données:
- Dans le modèle en nuage, toutes les données sont stockées dans un immense groupe plat et homogène (avec généralement trois copies réparties sur différents sites). Aucun transfert n’est donc nécessaire. Comme un seul groupe renferme toutes les données, la qualité du service est uniforme, ce qui devient très vite sous-optimal (et donc peu économique) quand le volume de données augmente au point que le stockage en vient à représenter une grande partie du coût total du projet scientifique.
- Au contraire, l’approche en volume ne se limite pas à un seul groupe. Elle fait appel aux notions de flux, de durée de vie, de mouvement et d’emplacement des données et compose une architecture fondée sur plusieurs groupes offrant une qualité de service différente, ce qui permet de réduire sensiblement et, en principe, d’optimiser le coût du stockage.
Les différents supports
Quiconque utilise un ordinateur, au travail ou à la maison, a une bonne idée de ce qu’on peut attendre des disques durs. Ils ont la réputation d’être assez rapides et bon marché. La plupart des utilisateurs d’un ordinateur portable ou de bureau diraient également que les disques durs sont fiables car ils n’ont jamais perdu de données — même s’ils savent que cela peut arriver. Au Centre de données du CERN, nous pouvons mesurer de manière méthodique la qualité de différents supports au moyen d’immenses volumes de données. Et nous sommes parvenus à certaines conclusions surprenantes.
Nous avons découvert que les disques durs étaient un moyen rentable (0,03 € par gigaoctet) de stocker des données en ligne (hors consommation électrique d’un fonctionnement 24 heures sur 24, 7 jours sur 7) et offraient un rendement acceptable (100 mégaoctets par seconde pour lire ou écrire un seul flux de données, avec un temps de recherche de quelques millièmes de seconde). En revanche, leur fiabilité est insuffisante pour offrir un bon service: au cours d’une journée ordinaire, 5 des 80 000 disques que possède le Centre de données du CERN tombent en panne. Le taux de perte quotidien se situe donc aux alentours de 10 000 gigaoctets, l’équivalent du contenu de 5 000 boîtes aux lettres électroniques de taille moyenne. C’est beaucoup trop; stocker une seule copie sur un seul disque n’est pas une solution viable.
Longue vie au stockage à long terme
Il en va tout autrement avec les bandes, qui se présentent sous la forme de cartouches de 4 000 à 5 000 gigaoctets dont le coût (0,02 € par gigaoctet) se compare à celui des disques. Leur principal inconvénient est le long temps d’attente (d’accès); il faut quelques minutes pour rembobiner la bande, la retirer, placer une autre cartouche et parvenir à l’endroit où se trouvent les données voulues. En dépit de cette réputation de lenteur, une fois que la bande est bien positionnée, la vitesse de lecture ou d’écriture est en général deux fois plus rapide que celle d’un disque dur. De plus, les dérouleurs sont munis de têtes de lecture et d’écriture séparées, ce qui permet de lire les données «à la volée» juste après les avoir écrites et double encore la vitesse quand il faut vérifier les données. À la différence des disques durs, les bandes ne consomment d’électricité que pendant la lecture ou l’écriture.
Les disques et les bandes se différencient aussi par leur fiabilité. Quand un problème survient avec une bande, on perd seulement les données stockées sur un tronçon de la bande, le reste peut toujours être lu. Ce genre d’«incident» provoque une perte allant de quelques centaines de mégaoctets à quelques gigaoctets, soit mille fois moins qu’avec un disque. Le Centre de données du CERN confirme ces chiffres; avec plus de 50 000 bandes, les pertes annuelles de données stockées sur bandes s’établissent à quelques centaines de gigaoctets, contre quelques centaines de téraoctets pour les disques durs.
![]() |
Le Centre de données du CERN renferme des serveurs et des dispositifs de stockage pour le «niveau 0» de la Grille et en vue d’autres analyses, mais également pour des systèmes essentiels au fonctionnement quotidien du laboratoire. - CERN
|
Par ailleurs, les défaillances des bandes sont très peu liées les unes aux autres; la probabilité qu’une opération d’écriture sur la bande A échoue est largement indépendante de la probabilité que survienne un problème avec la bande B. La corrélation est beaucoup plus étroite entre les disques durs placés dans le même serveur ou liés au même contrôleur – la probabilité d’une deuxième défaillance est beaucoup plus élevée que la probabilité de la première. L’indépendance des pannes est essentielle pour accroître la fiabilité du service, aspect qui fait souvent dans les architectures où les serveurs renferment un grand nombre de disques.
Conflits et intégrité des données
Le Centre de données du CERN a enregistré à ce jour plus de 100 pétaoctets (soit 100 millions de gigaoctets) de données de physique provenant du LHC, l’équivalent de 700 ans de films en haute définition. Au cours des trois dernières années seulement, les collisions réalisées dans le LHC ont produit quelque 75 pétaoctets de résultats. L’essentiel des données (à peu près 88 pétaoctets) est stocké sur bande. Le CERN a huit bibliothèques de bandes robotisées réparties dans deux bâtiments, chaque bibliothèque pouvant contenir jusqu’à 14 000 cartouches. Il possède au total 52 000 cartouches. Le reste des données (13 pétaoctets) est stocké sur un système de disques durs optimisé pour une analyse rapide et accessible à un grand nombre d’utilisateurs simultanément. Les données se trouvent sur plus de 17 000 disques reliés à 800 serveurs.
Dans un système composite comme celui du CERN, il est important de veiller à ce que toutes les copies de données conservées dans des groupes différents soient identiques. Si les logiciels fonctionnaient toujours à la perfection, le copiage basé sur les métadonnées serait suffisant pour garantir le degré de cohérence voulu. Cependant, lorsque des conflits surgissent entre les jeux de données conservés dans des groupes différents, il faut pouvoir pouvoir régler le problème en suivant une stratégie bien définie.
La sécurité est également cruciale pour garantir l’intégrité des données à long terme. Toute requête exécutée par un service de stockage doit être rapportée à une instance précise, laquelle doit pouvoir être reliée à une personne. Les questions de sécurité peuvent, par exemple, nécessiter de recourir au cryptage ou d’imposer des limites aux données que peut consulter ou modifier un utilisateur. Une protection élevée exige cependant de trouver un compromis entre la performance, l’évolutivité et le coût.
Conclusions
On voit que, si la gestion d’un volume considérable de données scientifiques, 24 heures sur 24, 7 jours sur 7, est une tâche complexe, elle n’en est pas moins réalisable. Il est important de construire des systèmes robustes, car les composantes d’un dispositif aussi imposant présenteront forcément des défaillances à un moment ou l’autre. Rappelons qu’il a fallu plus d’une décennie pour bâtir la Grille WLCG. Les réseaux se sont révélés beaucoup plus fiables qu’on ne le pensait, et beaucoup moins coûteux. La fédération d’instances du monde entier a également assuré le succès, puisque les chercheurs veulent continuer à accéder à «leurs» données même s’ils passent d’un établissement à l’autre.
Le CERN est l’un des organismes qui gère le plus grand volume de données, grâce à des solutions de traitement, de distribution et d’analyse ultra-modernes. Il s’attaque maintenant aux défis que présente la conservation à long terme. La protection et la pérennité des données exigent des efforts permanents, même après que le financement des expériences a cessé. Les bailleurs de fonds exigent de plus en plus que des mesures soient prises à cet effet. On ne peut que s’en réjouir, car nous avons à l’égard des générations futures l’obligation de préserver avec soin les données issues des expériences du CERN.
Pour en savoir plus sur la gestion des données au CERN, regarder la vidéo.
______________