Sauvetage, archivage et conservation des données météorologiques

02 mars 2015

Par Jason Cooper, archiviste, Centre national de données climatologiques, Administration américaine pour les océans et l'atmosphère (NOAA)

Les dépôts de données et les centres d'archivage sont des sources essentielles de données d'observation utilisées pour l'étude du temps et du climat. Après avoir été compilées sur papier pendant plus de deux siècles, les données d'observation sont depuis 20 ans recueillies surtout sous forme électronique. Les dépôts de données répartis dans le monde entier contiennent aujourd'hui un mélange de données stockées sur des supports physiques – par exemple, papier et microfilms – et sur des supports numériques comme les disquettes informatiques, les bandes magnétiques et les DVD. Peu importe le support utilisé, il existe un risque de perte des données. Les dépôts doivent reconnaître, évaluer, acquérir, archiver et transférer les données sur des supports plus avancés afin de les mettre à la disposition des chercheurs. Ces activités de conservation et de conversion aux formats électroniques communs sont essentielles pour la préservation des relevés climatologiques mondiaux et l’amélioration de leur qualité.

La création d'ensembles de données complets à partir de collections disparates est un enjeu fondamental pour les spécialistes de la recherche sur le climat. La meilleure façon d'y parvenir est de promouvoir la création de partenariats afin de partager ressources et expérience. L'objectif consiste à transmettre plus d'informations aux scientifiques qui cherchent à mieux comprendre le système climatique mondial et à anticiper les variations des conditions climatiques.
 

Données d'observation – état des lieux

Aujourd'hui, la majorité des données d'observation météorologique sont recueillies sous forme numérique. Le Centre national de données climatologiques des États-Unis (NCDC) a commencé à recueillir des données numériques à la fin des années 1970, avec l'avènement des données satellitaires. Au cours des années 1990, le Service météorologique national des États-Unis (NWS) a déployé de nouveaux systèmes de collecte de données in situ et de données radar, et remplacé son réseau vieillissant de radars météorologiques par le réseau NEXRAD (radars météorologiques de la prochaine génération). Le NCDC a commencé à recevoir directement des images numériques. Le dépôt de données numériques issues du réseau NEXRAD couvre aujourd'hui une période de 20 ans, et le Centre conserve par ailleurs sur microfilm plus de 20 millions d'images recueillies avant la mise en place du réseau NEXRAD.

Depuis que les aéroports ont entrepris de recueillir des données d'observation météorologique horaires, à la fin des années 1920, le NCDC a archivé des dizaines de millions de formulaires transmis par les stations d'observations réparties dans tout le pays. La collecte in situ des données est aussi passée en mode numérique au cours des années 1990 avec l'adoption par le NWS du système ASOS (Automated Surface Observing System). Le système ASOS transmet directement au NCDC des données numériques, et les formulaires d’observations papier sont pour la plupart disparus. De nouvelles méthodes de transmission des données sous forme numérique ont aussi été adoptées pour le réseau des observateurs bénévoles, alors que les nouveaux raccordements de particuliers à l'Internet se comptaient par millions.

Aujourd'hui, les formulaires papier et les tableaux analogiques sont rares. Seuls les navires en mer, les stations qui éprouvent toujours des problèmes de transmission intermittente et un très petit nombre de stations qui ne se sont toujours pas converties à la transmission numérique transmettent toujours au NCDC leurs données sur support papier. La vaste collection de données stockées sur support physique du NCDC ne grossit pas très rapidement. Le Centre reçoit toujours de temps en temps une petite collection de relevés retrouvés dans un bureau de prévision du NWS ou dans un service d'observations climatologiques d'État, ou des donnés stockées sur supports papier ou sur supports numériques portables – par exemple, disquettes ou CD-ROM – laissées par des employés au moment de leur départ. Certaines des données ont été oubliées ou ignorées depuis des décennies.
 

Sauvetage des données

Dans le contexte actuel de conversion en masse des données d'observation météorologique sous forme numérique, les dépôts de données dans le monde entier se retrouvent avec des registres vieillissants de données sur support papier ou sur microfilm. Les activités de sauvetage des données ont pour but de rendre de plus grandes quantités de ces données historiques facilement accessibles. Aux États-Unis, un programme de numérisation des données connu sous le nom de Climate Database Modernization Program (CDMP) a rencontré un énorme succès. Il a permis de convertir plus de cinquante millions de relevés d'observations sous forme d'images numériques – par exemple, aux formats PDF, TIFF ou JPEG. Le programme a également permis de saisir des millions d'éléments météorologiques dans des jeux de données numériques. Grâce à ce programme, les observations horaires recueillies depuis longtemps par des stations américaines sont désormais disponibles sous forme d'images ou de fichiers électroniques, et le pays dispose d'une vaste couverture de données dont les plus anciennes remontent au XIXe siècle.

La situation en ce qui concerne le sauvetage et la numérisation des données est différente aujourd'hui. Le CDMP a pris fin en 2011, et il reste toujours des relevés sur support physique à numériser. Le NCDC cherche activement à conclure des partenariats afin de poursuivre le travail de sauvetage et de conversion des données sous forme numérique en vue d'en faciliter l'utilisation pour les recherches sur le climat. Il s'est déjà engagé dans des partenariats pour numériser des registres anciens de données satellitaires qui révèlent l'étendue des banquises de la fin des années 1960 au début des années 1970. Le Centre national des ouragans a commencé à utiliser d'anciennes images produites par des satellites en orbite géostationnaire ou en orbite polaire qui n'étaient auparavant disponibles qu'en format analogique pour procéder à une nouvelle analyse des saisons des ouragans de l’Atlantique de 1966 à 1975. Il serait peut-être aussi possible de procéder à une telle analyse des cyclones du Pacifique et de l'océan Indien, par le biais de l'initiative International Best-Track Archive for Climate Stewardship (IBTrACS) (Archive internationale des trajectoires optimales pour la protection du climat).


Archives de la NOAA / © NOAA

En vertu de son engagement en tant que Centre mondial de données de l'OMM, le NCDC conserve dans ses propres archives plus de 2 000 boîtes de registres papier étrangers et plus de 5 000 bobines de microfilm. Il conserve également les registres de données d'observation constitués par l'armée américaine en temps de guerre, depuis la Deuxième Guerre mondiale jusqu'aux conflits qui ont éclaté dans les Balkans et au Koweït au début des années 1990. Pour la première fois, les utilisateurs peuvent découvrir ces registres et tous les autres relevés disponibles sur support physique au NCDC puisque la base de données dans laquelle ils sont conservés est désormais mise à la disposition du public sur le Web grâce à l'interface Archive Records Tracking and Inventory System (WebARTIS). Il est également possible de capturer et d'utiliser les données des réseaux mondiaux d’observation in situ. Les usagers qui souhaitent convertir les données stockées sur des supports physiques en données numériques sont invités à payer une partie du coût de la conversion, en particulier lorsque leur demande concerne de gros volumes de données. Les autorités de la Nouvelle-Calédonie ont récemment financé la numérisation des observations recueillies sur leur territoire pendant la Deuxième Guerre mondiale afin de combler une grande lacune dans leurs relevés climatologiques. L’Observatoire de Hong Kong a découvert que le Centre possédait les relevés originaux des données d’observation qu'il avait recueillies au cours des années 1930. Le NCDC prépare actuellement des copies numériques de ces relevés.

Le NCDC n'est pas seul à posséder des relevés de données météorologiques anciennes. Partout dans le monde, des pays conservent des registres précieux qui, une fois numérisés, viendraient compléter les bases de données climatologiques et nous permettraient d'avoir une vision plus complète de l'évolution du climat. Le NCDC entretient des rapports actifs avec l’Organisation internationale de sauvetage des données environnementales (IEDRO), laquelle s'emploie à recenser et à récupérer les registres de données météorologiques de pays possédant de grandes quantités de relevés météorologiques analogiques et qui ont besoin d'aide pour les préserver et les numériser. Le NCDC collabore avec l'IEDRO pour définir des formats communs de données et recommande les formats d'image à utiliser pour la conversion des relevés que les organisations sans but lucratif recensent et sauvegardent. L'enjeu de la sauvegarde des données interpelle ceux qui possèdent et conservent les données stockées sur support physique, ceux qui recherchent les données dans le but de les numériser, et ceux qui conservent les collections numériques qui forment les registres modernes de données climatologiques et qui en gèrent l'accès.
 

Obsolescence

Le NCDC accepte régulièrement de prendre en charge des donnés sur support papier, sur microfilms et sous plusieurs types de formats numériques. Cependant, certains formats sont plus difficiles à utiliser et à conserver. Les spécialistes du Centre sont en mesure de consulter les films aux formats standard de 16 ou de 35 mm, et même les microfiches, mais le Centre possède également un très petit nombre de microfilms d’un format moins courant de 5 pouces dont la lecture exige des équipements plus spécialisés. Les dépôts de données sont aussi souvent aux prises avec un autre problème plus commun: les données stockées sur des supports portables désuets et celles conservées dans des fichiers au format périmé. Le NCDC a la chance de posséder une machine capable de lire et de manipuler les disquettes de 3,5 et de 5,25 pouces, mais il a besoin d'aide pour lire les «disques zip», un format qui a connu une grande popularité pendant une courte période à la fin des années 1990. Les CD-ROM et les DVD ont déjà commencé à perdre la faveur des utilisateurs. À cause de ce problème d'obsolescence rapide, le NCDC a pour politique de transférer les données des supports portables à des systèmes d'archivage numérique en réseau afin d'en assurer la préservation.

La préservation des données numériques présente une autre difficulté: l'utilisation de formats uniques ou périmés. Beaucoup de formats sont exclusifs, c'est-à-dire qu'ils appartiennent à des concepteurs de logiciels particuliers. Lorsque ces sociétés cessent leurs activités ou modernisent leur logiciel, les supports de données aux formats plus anciens cessent rapidement d'être utilisés. Les services d’archivage se voient alors contraints de convertir les fichiers sous un format plus usité, ou de conserver la documentation requise pour aider les utilisateurs à le faire. Les services d’archivage de données numériques doivent procéder à des contrôles réguliers des formats des fichiers de données en leur possession et migrer des formats qui semblent tomber en désuétude. Le NCDC a pour politique de limiter le plus possible la variété des formats de données afin d'en faciliter le contrôle. Les spécialistes de l'archivage proposent des formats d'images plus pérennes tandis que les scientifiques préconisent des formats numériques autodescriptifs standard tels que NetCDF.


Évaluation

Toutes les collections de données – physiques ou numériques – doivent faire l'objet d'une évaluation. Il s'agit de porter un jugement subjectif sur l'opportunité, pour un dépôt donné, de conserver un registre, un jeu de données ou une collection. Aux fins de cette évaluation, le NCDC examine deux aspects principaux. Il évalue dans un premier temps si l'archivage de la collection peut être considéré «approprié» en posant les questions suivantes (noter que le mot «collection» peut être facilement remplacé par «données» ou «registres», selon le type de support utilisé):

  • La collection est-elle déjà archivée ailleurs? Dans l'affirmative, se trouve-t-elle dans des archives publiques, universitaires ou privées? Dans ce cas, conviendrait-il de conclure un accord afin de récupérer la collection si son dépositaire actuel décidait de s'en départir?
  • Le Centre constitue-t-il le dépôt le plus approprié pour la collection? Sinon, quelles sont les solutions de rechange?
  • Les utilisateurs s'attendront-ils normalement à trouver la collection au Centre? Sinon, où seront-ils portés à chercher? Ce dépôt serait-il en mesure d'assurer l'intendance de la collection?
  • Les clients du NCDC manifesteront-ils un intérêt pour la collection? On demande aux auteurs de la collection d'indiquer la communauté d'utilisateurs qui s'intéresserait selon eux à leur collection.
  • La collection vient-elle compléter les archives actuelles du Centre?
  • La collection est-elle utile au travail effectué par le NCDC – élaboration de produits, recherche ou publication?
  • La collection a-t-elle été produite par l'Administration américaine pour les océans et l'atmosphère (NOAA)? Le NCDC a pour mission première d'archiver les données produites par l'organisation qui le chapeaute.

Le NCDC devrait idéalement pouvoir accepter toutes les collections qui satisfont aux critères énoncés ci-dessus. Cependant, les ressources dont il dispose et son aptitude à assurer l'intendance des nouvelles données ou supports physiques doivent également être prises en compte dans cette évaluation. À cet égard, d'autres questions doivent être posées:

  • Le NCDC a-t-il la capacité de gérer le volume de données (transfert et stockage)?
  • Le NCDC est-il en mesure de préparer les données aux fins de l'archivage? Le producteur des données lui portera-t-il assistance pour le transfert, la création des métadonnées et l'attribution de titres aux fichiers?
  • Les données se présentent-elles sous un format préféré, ou sous un format gérable par le NCDC?
  • Le NCDC peut-il assurer l'accès aux données?
  • Le NCDC dispose-t-il des compétences voulues pour répondre aux questions des utilisateurs relatives aux données?

Lorsque l'étape de l'évaluation est conduite d'une manière cohérente, le dépôt de données se forge une identité forte, et la communauté des utilisateurs apprend à connaître les types de données et d'enregistrements physiques qu'il peut s'attendre à y trouver. Par contre, une évaluation incohérente conduit à la constitution de collections disparates et crée de la confusion quant à la mission du service d’archivage, tant chez ses utilisateurs potentiels que chez les membres de son personnel.


Archivage et recherche sur le climat

Le NCDC est un centre avancé de dépôt de relevés convertis en images ou en fichiers de données saisies au clavier. Le rôle qu'il joue en tant que centre mondial de données et son travail d'intendance des données numériques en font l'endroit idéal où transmettre ses données aux fins d'archivage. Le NCDC participe activement à l'Initiative internationale sur les températures de surface qui a pour mission de conserver les données d'observation en surface recueillies à l'échelle mondiale depuis les années 1800 jusqu'à aujourd'hui. Il participe également au travail de la Banque internationale de données sur la pression de surface (ISPD), la plus importante collection mondiale de relevés sur la pression. Ces organisations d'archivage de données représentent le dernier maillon de l'effort mondial de sauvetage des données et de mise en place de partenariats à cette fin. Elles s'emploient à rassembler des jeux de données qui soient les plus complets et les plus homogènes possibles, compte tenu des origines disparates des observations originales.

Le sauvetage et la conservation des données au XXIe siècle nécessitent l'établissement de partenariats pour la mise en commun des ressources et des domaines de spécialisation. Le sauvetage des données, comme la recherche sur le climat, devient ainsi plus que jamais l'affaire des pays, des organisations sans but lucratif et des universités qui collaborent par dizaines à l'amélioration des dépôts de relevés climatologiques. Grâce à l'accès à des jeux de données plus riches et plus complets, la communauté mondiale des chercheurs en climatologie continuera à faire progresser la connaissance du système climatique et à anticiper son évolution future.


Références

National Climate Data Center (NCDC)

International Surface Temperature Initiative (ISTI)

The International Surface Pressure Databank (ISPD)

Global Observing Systems Information Center (GOSIC)

World Data System (WDS)

International Environmental Data Rescue Organization (IEDRO)

National Archives and Records Administration (NARA) archive environmental guidelines

WebARTIS

Climate Database Modernization Program (CDMP)

    Partager :