Décrire

Décrire les données de la recherche est un élément clé de leur gestion à toutes les étapes de la vie d’un projet de recherche, de la collecte jusqu’à la diffusion ou conservation des données. Elle permet d’organiser la collecte puis le classement des données au sein de l’équipe-projet, entre les différents partenaires, facilite le tri, la conservation ou le partage des jeux de données. L’ajout de métadonnées facilite l’interopérabilité et permet aux jeux de données d’être accessibles et visibles à travers différents moteurs de recherche.

Être accompagné sur les données de recherche : FAIRDATACité

La description des données comporte deux volets distincts :

L’identification du type et de la nature des données
La description du jeu de données par l’ajout de métadonnées standardisées

La description des données, ainsi que l’organisation et le nommage des fichiers, peuvent être documentées dans un fichier « Lisez-moi » (« ReadMe ») qui pourra être déposé avec le jeu de données dans un entrepôt par exemple.

Informer sur le contenu et l’organisation des données

Décrire ses données consiste à expliciter leur contenu et leur organisation ; cela implique de renseigner des « métadonnées », c’est-à-dire de « données qui décrivent les données ».

Le titre d’un jeu de donnée, son auteur, le format des données, leur volumétrie, leur couverture géographique et temporelle, sont autant de métadonnées élémentaires pour comprendre et expliciter le contenu d’un jeu de données.

En termes d’organisation, les règles de nommage adoptées pour vos fichiers, et le choix d’une l’arborescence documentaire sont des informations essentielles pour vous organiser vous-même dans votre propre travail de recherche mais aussi de permettre à des personnes extérieures d’appréhender et comprendre au mieux l’ensemble de vos fichiers de travail.

Pourquoi décrire vos données ?

Décrire vos données de façon précise et standardisée est très utile au cours de votre recherche pour vous et pour les interactions avec les partenaires de votre projet en cours, mais est surtout indispensable à l’issue de votre projet de recherche lors du partage de vos données dans un entrepôt de données.

Lorsque vous déposez vos données dans un entrepôts , il est recommandé de les décrire de la façon la plus précise possible et de façon standardisée pour favoriser l’interopérabilité entre humains et machines : en utilisant des standards de métadonnées, des mots-clés génériques, des ontologies et des vocabulaires contrôlés, vous rendez vos données plus facilement trouvables par les machines et moteurs de recherche et donc par les chercheurs potentiellement intéressés par vos données…

Pour aller plus loin :

Rôle et structure des métadonnées (DoRANum)
Catalogue de standards de la Research Data Alliance
Digital Curation Standards
FAIRsharing pour les sciences de la vie
Un générateur de métadonnées pour les données de recherche

Comment décrire vos données ?

De façon générique, les informations élémentaires sur le contenu de vos données concernent :

leur origine et la méthode de collecte utilisées (données d’observation, expérimentales, computationnelles ou de simulation, dérivées ou compilées, données de référence…).
leur format (textuelle, numérique, audiovisuelle, modèles ou codes informatiques, données spécifiques produites par certains instruments, etc.)
leur niveau d’élaboration ou de traitement (données sources ou résultats, primaires ou secondaires, brutes, formatées, compilées, etc.).

Cependant, selon la discipline de recherche, vous pouvez renseigner des informations beaucoup plus précises et spécifiques à votre champ disciplinaire en vous conformant au standard de métadonnées le plus approprié.

Les standards de métadonnées peuvent être disciplinaires, c’est-à-dire propres à une communauté de recherche spécifique, par exemple EAD pour l’archivistique, le Darwin Core pour les données de biodiversité, ou le standard DDI pour les données d’enquêtes quantitatives, ou généraliste, qui peuvent s’appliquer à n’importe quel jeu de données, comme le standard Dublin Core.

Si les standards généralistes comportent nécessairement un nombre de champ réduit (une quinzaine d’informations pour le Dublin Core), les standards disciplinaires peuvent comporter un nombre très important d’information (plus d’une centaine pour le DDI). Le site DCC répertorie un grand nombre de standards de métadonnées selon les disciplines.

Bien qu’il soit recommandé d’utiliser un standard disciplinaire s’il en existe un, le choix du standard de métadonnées à adopter peut aussi être conditionné par le(s) standard(s) accepté(s) par l’entrepôt dans lequel on compte déposer le jeu de données.

Rédiger un fichier ReadMe

A la fois pour vous organiser dans votre travail, mais surtout au moment du partage de vos données dans un entrepôt de données, il est recommandé de rédiger un fichier ReadMe (« Lisez-moi »), qui est en quelque sorte une carte d’identité synthétique sur vos données.

Dans un fichier ReadeMe, vous pouvez renseigner plusieurs informations/métadonnées élémentaires sur vos données notamment :

Des métadonnées descriptives de contenu : titre, sujet, description, mots-clés, qualité des données, etc.
Des métadonnées techniques et de structure : format, date, couverture géographique etc.
Des métadonnées administratives : droits de propriété et d’usage, responsabilité (contact), préservation de la ressource, etc.

Pour aller plus loin

Introduction à la description des données

L’origine et la description des données de recherche (DoRANum)

Exemples de fichiers ReadMe

Template pour un fichier ReadMe
Cornell University’s Research Data Management Service Group README template

Sur les métadonnées

Introduction aux métadonnées (DoRANum)
Rôle et structure des métadonnées (DoRANum)
Catalogue de standards de la Research Data Alliance
Digital Curation Standards
FAIRsharing pour les sciences de la vie (ne marche pas)
Un générateur de métadonnées pour les données de recherche

Répertoire de vocabulaires contrôlés

Loterre

À lire aussi

Édition en accès ouvert : la plateforme OPUS distinguée par le FNSO

Publications, Science ouverte, une

Le Fonds national pour la science ouverte (FNSO) a dévoilé les résultats de son quatrième appel à projets dédié à l’édition scientifique ouverte. OPUS (Open PUblishing Services), la plateforme éditoriale en accès ouvert de l’Université Paris Cité, figure...

Planetary Research, une revue en accès ouvert au service des sciences planétaires

Publications, Science ouverte

OPUS, la plateforme d’édition en accès ouvert de l’Université Paris Cité, accueille la création de Planetary Research, revue académique dédiée au domaine de la planétologie. Image des dépôts sédimentaires dans Arabia Terra, sur Mars, prise par la caméra HiRISE à bord...

Ethan Meimoun, doctorant à UPCité, reçoit le prix « science ouverte de la thèse » 2025 dans la catégorie Sciences humaines et sociales

Science ouverte

Ethan Meimoun, doctorant en Psychologie à l'Université Paris Cité, a obtenu le Prix du MESRE « science ouverte de la thèse » dans la catégorie Sciences humaines et sociales, pour sa thèse "Réactions aux Violations des Normes de Genre d’Adolescent·e·s : Une...

Retour sur l’Open Access Week 2025

publication, Science ouverte, une

À l’occasion de la Semaine internationale du libre accès (International Open Access Week) 2025, le pôle Science ouverte et Données de Recherche est allé à la rencontre des chercheuses et chercheurs de l'université pour promouvoir l'accès ouvert aux...