Décrire

Décrire les données de la recherche est un élément clé de leur gestion à toutes les étapes de la vie d’un projet de recherche, de la collecte jusqu’à la diffusion ou conservation des données. Elle permet d’organiser la collecte puis le classement des données au sein de l’équipe-projet, entre les différents partenaires, facilite le tri, la conservation ou le partage des jeux de données. L’ajout de métadonnées facilite l’interopérabilité et permet aux jeux de données d’être accessibles et visibles à travers différents moteurs de recherche.

La description des données comporte deux volets distincts :

  • L’identification du type et de la nature des données
  • La description du jeu de données par l’ajout de métadonnées standardisées

La description des données, ainsi que l’organisation et le nommage des fichiers, peuvent être documentées dans un fichier « Lisez-moi » (« ReadMe ») qui pourra être déposé avec le jeu de données dans un entrepôt par exemple.

Pour toute question : donnees.recherche.dbm[a]listes.u-paris.fr

Identifier la nature de ses données

Les données peuvent être décrites à partir de plusieurs points de vue :

  • L’origine des données et leur méthodologie de collecte (données d’observation, expérimentales, computationnelles ou de simulation, dérivées ou compilées, données de référence).
  • Leur forme (textuelle, numérique, audiovisuelle, modèles ou codes informatiques, données spécifiques produites par certains instruments, etc.)
  • Leur niveau d’élaboration ou de traitement (données sources ou résultats, primaires ou secondaires, brutes, formatées, compilées, etc.).

La description des données, dans un plan de gestion de données par exemple, peut également inclure des informations sur la volumétrie et le format des données (ouverts ou fermés). Les formats ouverts, standards ouverts, sont à privilégier pour la préservation et le partage des données dans le temps. Pour savoir si un format est éligible à l’archivage, il est possible de le tester avec l’outil FACILE du CINES.

Pour aller plus loin :

Choisir un standard de métadonnées

Les métadonnées sont les « données décrivant les données », des informations descriptives qui permettent de renseigner le contenu d’un jeu de données. La standardisation de ses métadonnées est un des enjeux majeurs de l’ouverture des données car elle permet leur interopérabilité, entre humains et machines.

Les métadonnées permettent de comprendre la composition d’un jeu de données (nature des données, contexte et méthodologie de collecte, auteur·es, date de création, lieu, pour quels objectifs, etc.), facilitent la recherche d’un jeu données et rendent possible sa réutilisation.

Les métadonnées sont de plusieurs types :

  • Métadonnées descriptives de contenu : titre, sujet, description, mots clés, qualité des données, etc.
  • Métadonnées techniques et de structure : format, date, etc.
  • Métadonnées administratives : droits de propriété et d’usage, responsabilité (contact), préservation de la ressource, etc.

En fonction des disciplines, il existe différents standards de métadonnées. Il est recommandé d’utiliser les standards de sa communauté de recherche. L’un des plus utilisé et généraliste est le Dublin Core ; il peut être adapté à ses besoins.

Le recours à des vocabulaires contrôlés ou ontologies est également recommandé pour favoriser l’interopérabilité et la découvrabilité des données (principes FAIR). Loterre est un répertoire très utile pour les consulter.

Principaux standards de métadonnées par champs disciplinaires :

Général : CERIF, Data Package, DataCite Metadata Schema, DCAT, Dublin Core, OAI-ORE, Observations and Measurements, PREMIS, PROV, RDF Data Cube Vocabulary, Repository-Developed Metadata Schemas.

Sciences Sociales & Humanités : DDI, EAD, MIDAS-Heritage, OAI-ORE, QuDEx, SDMX

Sciences physiques : AVM, CIF, CSMD-CCLRC, FITS, International Virtual Observatory Alliance Technical Specifications, NeXus, Observations and Measurements, PDBx/mmCIF, SDAC, SPASE Data Model.

Sciences de la terre : AgMES, AVM, CF, CIM, DIF, FGDC/CSDGM, ISO 19115, Observations and Measurements, Repository-developed Metadata Schemas.

Biologie : Darwin Core, EML, Genome Metadata, ISA-Tab, MIBBI, Observ-OM, OME-XML, PDBx/mmCIF, Protocol Data Element definitions, Repository-Developed Metadata Schemas.

Source : https://www.dcc.ac.uk/guidance/standards/metadata

Pour aller plus loin :

Nommer et organiser ses fichiers

Déterminer les règles de gestion, de classement, de conservation, d’accès et de partage des données au cours du projet, entre les différents partenaires, permet d’aborder plus sereinement la gestion de la documentation qu’il implique. Afin de déterminer vos arborescences et conventions de nommage, vous pouvez consulter ces deux fiches pratiques :

Le dépôt d’un jeu de données s’accompagne du dépôt d’un document « Lisez-moi » (« ReadMe ») explicitant les règles de nommage, de versions et d’organisation du fichier.

L’essentiel :

  1. Donner un nom bref et explicite
  2. Ne pas mettre d’espaces ni de caractères spéciaux
  3. Indiquer les dates au bon format
  4. Placer l’élément important en premier
  5. Indiquer les versions des documents

Source : Comment bien nommer ses fichiers ? (DoRANum)

Pour aller plus loin :

Conseils pour l'organisation des données

 

 

À lire aussi

HALathon-Santé : du 2 au 12 mai 2023

HALathon-Santé : du 2 au 12 mai 2023

    HALathon : principes et fonctionnement Depuis son ouverture en octobre 2020, l’archive ouverte HAL UPCité s’est progressivement enrichie et contient aujourd’hui plus de 100 000 références et 67 000 documents en texte intégral. L’objectif est de mener,...

Dernière mise à jour : 06/01/2022