Décrire

Décrire les données de la recherche est un élément clé de leur gestion à toutes les étapes de la vie d’un projet de recherche, de la collecte jusqu’à la diffusion ou conservation des données. Elle permet d’organiser la collecte puis le classement des données au sein de l’équipe-projet, entre les différents partenaires, facilite le tri, la conservation ou le partage des jeux de données. L’ajout de métadonnées facilite l’interopérabilité et permet aux jeux de données d’être accessibles et visibles à travers différents moteurs de recherche.

Être accompagné : fairdatacite@listes.u-paris.fr

La description des données comporte deux volets distincts :

L’identification du type et de la nature des données
La description du jeu de données par l’ajout de métadonnées standardisées

La description des données, ainsi que l’organisation et le nommage des fichiers, peuvent être documentées dans un fichier « Lisez-moi » (« ReadMe ») qui pourra être déposé avec le jeu de données dans un entrepôt par exemple.

Informer sur le contenu et l’organisation des données

Décrire ses données consiste à expliciter leur contenu et leur organisation ; cela implique de renseigner des « métadonnées », c’est-à-dire de « données qui décrivent les données ».

Le titre d’un jeu de donnée, son auteur, le format des données, leur volumétrie, leur couverture géographique et temporelle, sont autant de métadonnées élémentaires pour comprendre et expliciter le contenu d’un jeu de données.

En termes d’organisation, les règles de nommage adoptées pour vos fichiers, et le choix d’une l’arborescence documentaire sont des informations essentielles pour vous organiser vous-même dans votre propre travail de recherche mais aussi de permettre à des personnes extérieures d’appréhender et comprendre au mieux l’ensemble de vos fichiers de travail.

Pourquoi décrire vos données ?

Décrire vos données de façon précise et standardisée est très utile au cours de votre recherche pour vous et pour les interactions avec les partenaires de votre projet en cours, mais est surtout indispensable à l’issue de votre projet de recherche lors du partage de vos données dans un entrepôt de données.

Lorsque vous déposez vos données dans un entrepôts , il est recommandé de les décrire de la façon la plus précise possible et de façon standardisée pour favoriser l’interopérabilité entre humains et machines : en utilisant des standards de métadonnées, des mots-clés génériques, des ontologies et des vocabulaires contrôlés, vous rendez vos données plus facilement trouvables par les machines et moteurs de recherche et donc par les chercheurs potentiellement intéressés par vos données…

Pour aller plus loin :

Rôle et structure des métadonnées (DoRANum)
Catalogue de standards de la Research Data Alliance
Digital Curation Standards
FAIRsharing pour les sciences de la vie
Un générateur de métadonnées pour les données de recherche

Comment décrire vos données ?

De façon générique, les informations élémentaires sur le contenu de vos données concernent :

leur origine et la méthode de collecte utilisées (données d’observation, expérimentales, computationnelles ou de simulation, dérivées ou compilées, données de référence…).
leur format (textuelle, numérique, audiovisuelle, modèles ou codes informatiques, données spécifiques produites par certains instruments, etc.)
leur niveau d’élaboration ou de traitement (données sources ou résultats, primaires ou secondaires, brutes, formatées, compilées, etc.).

Cependant, selon la discipline de recherche, vous pouvez renseigner des informations beaucoup plus précises et spécifiques à votre champ disciplinaire en vous conformant au standard de métadonnées le plus approprié.

Les standards de métadonnées peuvent être disciplinaires, c’est-à-dire propres à une communauté de recherche spécifique, par exemple EAD pour l’archivistique, le Darwin Core pour les données de biodiversité, ou le standard DDI pour les données d’enquêtes quantitatives, ou généraliste, qui peuvent s’appliquer à n’importe quel jeu de données, comme le standard Dublin Core.

Si les standards généralistes comportent nécessairement un nombre de champ réduit (une quinzaine d’informations pour le Dublin Core), les standards disciplinaires peuvent comporter un nombre très important d’information (plus d’une centaine pour le DDI). Le site DCC répertorie un grand nombre de standards de métadonnées selon les disciplines.

Bien qu’il soit recommandé d’utiliser un standard disciplinaire s’il en existe un, le choix du standard de métadonnées à adopter peut aussi être conditionné par le(s) standard(s) accepté(s) par l’entrepôt dans lequel on compte déposer le jeu de données.

Rédiger un fichier ReadMe

A la fois pour vous organiser dans votre travail, mais surtout au moment du partage de vos données dans un entrepôt de données, il est recommandé de rédiger un fichier ReadMe (« Lisez-moi »), qui est en quelque sorte une carte d’identité synthétique sur vos données.

Dans un fichier ReadeMe, vous pouvez renseigner plusieurs informations/métadonnées élémentaires sur vos données notamment :

Des métadonnées descriptives de contenu : titre, sujet, description, mots-clés, qualité des données, etc.
Des métadonnées techniques et de structure : format, date, couverture géographique etc.
Des métadonnées administratives : droits de propriété et d’usage, responsabilité (contact), préservation de la ressource, etc.