Décrire
Décrire les données de la recherche est un élément clé de leur gestion à toutes les étapes de la vie d’un projet de recherche, de la collecte jusqu’à la diffusion ou conservation des données. Elle permet d’organiser la collecte puis le classement des données au sein de l’équipe-projet, entre les différents partenaires, facilite le tri, la conservation ou le partage des jeux de données. L’ajout de métadonnées facilite l’interopérabilité et permet aux jeux de données d’être accessibles et visibles à travers différents moteurs de recherche.
La description des données comporte deux volets distincts :
- L’identification du type et de la nature des données
- La description du jeu de données par l’ajout de métadonnées standardisées
La description des données, ainsi que l’organisation et le nommage des fichiers, peuvent être documentées dans un fichier « Lisez-moi » (« ReadMe ») qui pourra être déposé avec le jeu de données dans un entrepôt par exemple.
Pour toute question : donnees.recherche.dbm[a]listes.u-paris.fr
Identifier la nature de ses données
Les données peuvent être décrites à partir de plusieurs points de vue :
- L’origine des données et leur méthodologie de collecte (données d’observation, expérimentales, computationnelles ou de simulation, dérivées ou compilées, données de référence).
- Leur forme (textuelle, numérique, audiovisuelle, modèles ou codes informatiques, données spécifiques produites par certains instruments, etc.)
- Leur niveau d’élaboration ou de traitement (données sources ou résultats, primaires ou secondaires, brutes, formatées, compilées, etc.).
La description des données, dans un plan de gestion de données par exemple, peut également inclure des informations sur la volumétrie et le format des données (ouverts ou fermés). Les formats ouverts, standards ouverts, sont à privilégier pour la préservation et le partage des données dans le temps. Pour savoir si un format est éligible à l’archivage, il est possible de le tester avec l’outil FACILE du CINES.
Pour aller plus loin :
Choisir un standard de métadonnées
Les métadonnées sont les « données décrivant les données », des informations descriptives qui permettent de renseigner le contenu d’un jeu de données. La standardisation de ses métadonnées est un des enjeux majeurs de l’ouverture des données car elle permet leur interopérabilité, entre humains et machines.
Les métadonnées permettent de comprendre la composition d’un jeu de données (nature des données, contexte et méthodologie de collecte, auteur·es, date de création, lieu, pour quels objectifs, etc.), facilitent la recherche d’un jeu données et rendent possible sa réutilisation.
Les métadonnées sont de plusieurs types :
- Métadonnées descriptives de contenu : titre, sujet, description, mots clés, qualité des données, etc.
- Métadonnées techniques et de structure : format, date, etc.
- Métadonnées administratives : droits de propriété et d’usage, responsabilité (contact), préservation de la ressource, etc.
En fonction des disciplines, il existe différents standards de métadonnées. Il est recommandé d’utiliser les standards de sa communauté de recherche. L’un des plus utilisé et généraliste est le Dublin Core ; il peut être adapté à ses besoins.
Le recours à des vocabulaires contrôlés ou ontologies est également recommandé pour favoriser l’interopérabilité et la découvrabilité des données (principes FAIR). Loterre est un répertoire très utile pour les consulter.
Principaux standards de métadonnées par champs disciplinaires : Général : CERIF, Data Package, DataCite Metadata Schema, DCAT, Dublin Core, OAI-ORE, Observations and Measurements, PREMIS, PROV, RDF Data Cube Vocabulary, Repository-Developed Metadata Schemas. Sciences Sociales & Humanités : DDI, EAD, MIDAS-Heritage, OAI-ORE, QuDEx, SDMX Sciences physiques : AVM, CIF, CSMD-CCLRC, FITS, International Virtual Observatory Alliance Technical Specifications, NeXus, Observations and Measurements, PDBx/mmCIF, SDAC, SPASE Data Model. Sciences de la terre : AgMES, AVM, CF, CIM, DIF, FGDC/CSDGM, ISO 19115, Observations and Measurements, Repository-developed Metadata Schemas. Biologie : Darwin Core, EML, Genome Metadata, ISA-Tab, MIBBI, Observ-OM, OME-XML, PDBx/mmCIF, Protocol Data Element definitions, Repository-Developed Metadata Schemas. |
Pour aller plus loin :
- Rôle et structure des métadonnées (DoRANum)
- Catalogue de standards de la Research Data Alliance
- Digital Curation Standards
- FAIRsharing pour les sciences de la vie
- Un générateur de métadonnées pour les données de recherche
Nommer et organiser ses fichiers
Déterminer les règles de gestion, de classement, de conservation, d’accès et de partage des données au cours du projet, entre les différents partenaires, permet d’aborder plus sereinement la gestion de la documentation qu’il implique. Afin de déterminer vos arborescences et conventions de nommage, vous pouvez consulter ces deux fiches pratiques :
Le dépôt d’un jeu de données s’accompagne du dépôt d’un document « Lisez-moi » (« ReadMe ») explicitant les règles de nommage, de versions et d’organisation du fichier.
L’essentiel :
- Donner un nom bref et explicite
- Ne pas mettre d’espaces ni de caractères spéciaux
- Indiquer les dates au bon format
- Placer l’élément important en premier
- Indiquer les versions des documents
Source : Comment bien nommer ses fichiers ? (DoRANum)
Pour aller plus loin :
- Template pour un fichier ReadMe
- Cornell University’s Research Data Management Service Group README template
Conseils pour l'organisation des données
À lire aussi
Parution : L’impression 3D en chirurgie orthognathique, à lire en libre accès
La fabrication additive permet de produire des dispositifs médicaux spécifiques aux patients, contribuant à offrir des soins sur mesure. L’impression 3D en chirurgie orthognathique : principes, réglementation et étude de cas offre un état de l’art de ses applications...
Retour sur la journée « Construire l’accompagnement à la gestion des données de la recherche »
Jeudi 5 septembre 2024, les directrices et directeurs ainsi que les référents Science ouverte de 50 unités de recherche et de laboratoires de l'université Paris Cité (UPCité), de l’Institut Pasteur et de l’Institut de physique du globe de Paris se sont...
Enseigner, apprendre, former à l’informatique à l’école : regards croisés
Le projet « Informatique à l’école : conceptualisations, accompagnement, ressources » IE CARE, financé par l’Agence nationale de la recherche (ANR), visait à comprendre et proposer des conditions et modalités durables d’un enseignement de...
À lire dans Emerging Neurologist : maladie de Moya Moya, deux cas étudiés au CHU de Rennes
Depuis les années 2000, plusieurs anomalies de l’artère cérébrale moyenne ont été décrites dont le twig-like, ou maladie de Moya Moya. Des praticiens du CHU Pontchaillou (Rennes) décrivent dans la revue en accès ouvert Emerging Neurologist le cas de deux...