Décrire
Décrire les données de la recherche est un élément clé de leur gestion à toutes les étapes de la vie d’un projet de recherche, de la collecte jusqu’à la diffusion ou conservation des données. Elle permet d’organiser la collecte puis le classement des données au sein de l’équipe-projet, entre les différents partenaires, facilite le tri, la conservation ou le partage des jeux de données. L’ajout de métadonnées facilite l’interopérabilité et permet aux jeux de données d’être accessibles et visibles à travers différents moteurs de recherche.
Être accompagné : fairdatacite@listes.u-paris.fr
La description des données comporte deux volets distincts :
- L’identification du type et de la nature des données
- La description du jeu de données par l’ajout de métadonnées standardisées
La description des données, ainsi que l’organisation et le nommage des fichiers, peuvent être documentées dans un fichier « Lisez-moi » (« ReadMe ») qui pourra être déposé avec le jeu de données dans un entrepôt par exemple.
Informer sur le contenu et l’organisation des données
Décrire ses données consiste à expliciter leur contenu et leur organisation ; cela implique de renseigner des « métadonnées », c’est-à-dire de « données qui décrivent les données ».
Le titre d’un jeu de donnée, son auteur, le format des données, leur volumétrie, leur couverture géographique et temporelle, sont autant de métadonnées élémentaires pour comprendre et expliciter le contenu d’un jeu de données.
En termes d’organisation, les règles de nommage adoptées pour vos fichiers, et le choix d’une l’arborescence documentaire sont des informations essentielles pour vous organiser vous-même dans votre propre travail de recherche mais aussi de permettre à des personnes extérieures d’appréhender et comprendre au mieux l’ensemble de vos fichiers de travail.
Pourquoi décrire vos données ?
Décrire vos données de façon précise et standardisée est très utile au cours de votre recherche pour vous et pour les interactions avec les partenaires de votre projet en cours, mais est surtout indispensable à l’issue de votre projet de recherche lors du partage de vos données dans un entrepôt de données.
Lorsque vous déposez vos données dans un entrepôts , il est recommandé de les décrire de la façon la plus précise possible et de façon standardisée pour favoriser l’interopérabilité entre humains et machines : en utilisant des standards de métadonnées, des mots-clés génériques, des ontologies et des vocabulaires contrôlés, vous rendez vos données plus facilement trouvables par les machines et moteurs de recherche et donc par les chercheurs potentiellement intéressés par vos données…
Pour aller plus loin :
- Rôle et structure des métadonnées (DoRANum)
- Catalogue de standards de la Research Data Alliance
- Digital Curation Standards
- FAIRsharing pour les sciences de la vie
- Un générateur de métadonnées pour les données de recherche
Comment décrire vos données ?
De façon générique, les informations élémentaires sur le contenu de vos données concernent :
-
leur origine et la méthode de collecte utilisées (données d’observation, expérimentales, computationnelles ou de simulation, dérivées ou compilées, données de référence…).
-
leur format (textuelle, numérique, audiovisuelle, modèles ou codes informatiques, données spécifiques produites par certains instruments, etc.)
-
leur niveau d’élaboration ou de traitement (données sources ou résultats, primaires ou secondaires, brutes, formatées, compilées, etc.).
Cependant, selon la discipline de recherche, vous pouvez renseigner des informations beaucoup plus précises et spécifiques à votre champ disciplinaire en vous conformant au standard de métadonnées le plus approprié.
Les standards de métadonnées peuvent être disciplinaires, c’est-à-dire propres à une communauté de recherche spécifique, par exemple EAD pour l’archivistique, le Darwin Core pour les données de biodiversité, ou le standard DDI pour les données d’enquêtes quantitatives, ou généraliste, qui peuvent s’appliquer à n’importe quel jeu de données, comme le standard Dublin Core.
Si les standards généralistes comportent nécessairement un nombre de champ réduit (une quinzaine d’informations pour le Dublin Core), les standards disciplinaires peuvent comporter un nombre très important d’information (plus d’une centaine pour le DDI). Le site DCC répertorie un grand nombre de standards de métadonnées selon les disciplines.
Bien qu’il soit recommandé d’utiliser un standard disciplinaire s’il en existe un, le choix du standard de métadonnées à adopter peut aussi être conditionné par le(s) standard(s) accepté(s) par l’entrepôt dans lequel on compte déposer le jeu de données.
Rédiger un fichier ReadMe
A la fois pour vous organiser dans votre travail, mais surtout au moment du partage de vos données dans un entrepôt de données, il est recommandé de rédiger un fichier ReadMe (« Lisez-moi »), qui est en quelque sorte une carte d’identité synthétique sur vos données.
Dans un fichier ReadeMe, vous pouvez renseigner plusieurs informations/métadonnées élémentaires sur vos données notamment :
-
Des métadonnées descriptives de contenu : titre, sujet, description, mots-clés, qualité des données, etc.
-
Des métadonnées techniques et de structure : format, date, couverture géographique etc.
-
Des métadonnées administratives : droits de propriété et d’usage, responsabilité (contact), préservation de la ressource, etc.
Pour aller plus loin
Introduction à la description des données
Exemples de fichiers ReadMe
-
Cornell University’s Research Data Management Service Group README template
Sur les métadonnées
-
Introduction aux métadonnées (DoRANum)
-
Rôle et structure des métadonnées (DoRANum)
-
Catalogue de standards de la Research Data Alliance
-
FAIRsharing pour les sciences de la vie (ne marche pas)
-
Un générateur de métadonnées pour les données de recherche
Répertoire de vocabulaires contrôlés
À lire aussi

L’équipe HAL UPCité valide désormais vos dépôts de fichiers dans HAL
Depuis le début de l’année 2025, l’équipe en charge de l’administration du portail HAL Université Paris Cité, au sein de la Direction des bibliothèques et musées, assume la validation technique et juridique de vos dépôts de fichiers avant leur mise en...

Publication sur le portail OPUS : proposez vos ouvrages avant le 12 mai
Vous êtes autrice ou auteur, directrice ou directeur d’un ouvrage scientifique et souhaitez le publier ? OPUS, portail d’édition en accès ouvert diamant de l’Université Paris Cité, lance un nouvel appel à manifestation d’intérêt du 17 mars au 12 mai 2025....

La plateforme d’édition en accès ouvert OPUS référencée dans le DOAB
OPUS, plateforme d’édition en accès ouvert de l’Université Paris Cité, est désormais référencée dans le DOAB - Directory of Open Access Books. Ce référencement permet aux ouvrages publiés de bénéficier d'une meilleure visibilité, et d'une accessibilité facilitée pour...

À lire dans la collection Nouveaux classiques en science ouverte : Le Prince philosophe d’Olympe de Gouges
Publiée sur OPUS, plateforme d’édition de l’université Paris Cité, cette édition rend le texte d’Olympe de Gouges disponible en libre accès, et l'accompagne d'explications, de pistes de réflexion et d’une bibliographie récente qui en facilitent la lecture...