Déposer

Valoriser ses données et l’ensemble du travail de gestion réalisé peut passer par différentes voies : l’ouverture et le partage des données dans un entrepôt et la publication d’articles de données (data paper).

Ouvrir toutes ses données ?

Le cycle de vie de la donnée se termine par la diffusion et la valorisation des données produites ou réutilisées. Toutes les données n’ont pas vocation à être partagé suivant le principe de base « aussi ouvert que possible, aussi fermé que nécessaire ». Certaines données, sensibles, ne peuvent être ouvertes en l’état, comme celles relevant du secret économique, défense, médicale, etc. ne peuvent être partagées.

Le guide juridique sur l’ouverture des données de la recherche, réalisé par un collectif de juristes de l’enseignement supérieur et de la recherche, explique les principes à respecter en matière de diffusion des données. De même, il peut être utile de consulter un logigramme qui facilite la prise de décision : celui de l’Institut Pasteur est accessible ici ou, sous une forme dynamique, celui réalisé par l’École des Ponts et chaussées.

Voir aussi le Guide pour la recherche pour les sciences humaines et la protection des données à caractère personnel (INSHS-CNRS).

Comment partager ses données ?

Le partage de jeux de données – s’il est possible – peut se faire par différentes voies :

  • Le dépôt de jeux de données dans un entrepôt
  • L’indexation des métadonnées dans un catalogue
  • La publication de data papers associée au(x) jeu(x) de données, etc.

Contact : donnees.recherche.dbm[a]listes.u-paris.fr

Pourquoi ouvrir ses données ?

Le partage et l’ouverture des données de la recherche permettent de répondre à un certain nombre de défis scientifiques, économiques et sociétaux. Il facilite le développement de nouvelles démarches (text and data mining, intelligence artificielle, etc.), l’émergence de nouvelles sources pour la recherche et la mise en place de nouvelles collaborations scientifiques. Par ailleurs, ce mouvement encourage et favorise l’intégrité scientifique et la reproductibilité des résultats, dans le but de lutter contre la fraude. De plus, il stimule l’innovation et répond aux attentes des citoyens en termes de transparence, de confiance dans la science et de retour sur investissement.

Pour aller plus loin :

Valoriser ses données (1) : déposer ses données dans un entrepôt

Pour identifier et choisir un entrepôt, plusieurs voies sont possibles. Pour identifier des entrepôts ou jeux de données, il est conseillé de passer par des méta-moteurs. Le tableau suivant présente une petite sélection de moteurs de recherche d’entrepôts ou d’entrepôts thématiques :

Registry of Research Data Repositories est un répertoire multidisciplinaire et international très complet. Il est notamment possible de faire une recherche par thématique

Re3data

Catalogue de services dédié aux données de la recherche (INIST)

Cat OPIDoR

Répertoire d’entrepôts en sciences de la vie

FAIRsharing

Identifier un entrepôt en physique et en chimie

DATACC

Entrepôt pour les données de sciences humaines et sociales (HUMA-NUM)

Nakala.fr

Entrepôt pour les données de biodiversité

GBIF

Entrepôt pour les données de géosciences

Pangaea

Il est conseillé de choisir un entrepôt thématique, reconnu par sa communauté disciplinaire, avant de se tourner vers d’autres solutions (entrepôts institutionnels, d’éditeurs ou bientôt l’entrepôt de données de recherche français Recherche Data Gouv).

Afin de s’assurer que l’entrepôt identifié soit sûr et que les données déposées soient FAIR, il est recommandé de s’informer des modalités de dépôt, en s’assurant des éléments suivants :

  • format de fichier accepté, modalité d’accès, facilité du dépôt
  • durée de préservation des données, qualité de préservation des données
  • certification de l’entrepôt (si possible)
  • identifiants pérennes associés aux jeux de données (ex : DOI)
  • précisions des métadonnées
  • mode d’accès
  • licences acceptées
  • localisation du serveur
  • coût éventuel

Différents modes de consultation du jeu de données sont possibles au sein d’un entrepôt : accès ouvert, accès ouvert après demande d’une autorisation, dépôt sous embargo, accès fermé. Dans ce dernier cas, seules les métadonnées peuvent être accessibles, et permettent lorsque le jeu de donnée l’exige, de respecter les principes FAIR. Les données déposées dans des entrepôts peuvent être ou non associées à une publication.

Différentes licences peuvent être utilisées pour la diffusion (et la réutilisation) des données : Licence Ouverte établie par le gouvernement (Etalab) – ou une licence compatible avec elle – et la licence ODbL pour les bases de données. Pour plus de précisions, voir le site data.gouv.

Pour aller plus loin :

Pour toute question sur le choix d’un entrepôt : donnees.recherche.dbm[a]listes.u-paris.fr

Valoriser ses données (2) : écrire un data paper

Un data paper est un article scientifique sur les données, évalué par les pairs, qui décrit finement un jeu de données de recherche, à l’aide d’informations plus précises que ce que l’on peut trouver dans un plan de gestion de données. Outre l’originalité et la portée du jeu de données, il permet d’insister et de démontrer la qualité des données, la méthodologie de collecte et de traitement. Enfin, il donne généralement accès au jeu de données, dans un fichier attaché ou par un lien pérenne (URL, DOI) vers l’entrepôt où il est déposé. On ne confondra pas les informations fournies par un data paper, avec celles qu’on l’on donne lorsqu’on rédige un Plan de Gestion de données.

Le data paper permet ainsi de valoriser les données en leur donnant une plus grande visibilité et accroit leur impact (les données sont ainsi plus facilement repérables et citables). Enfin, il facilite leur réutilisation.

Pour aller plus loin :

Contact : donnees.recherche.dbm[a]listes.u-paris.fr

À lire aussi

HALathon-Santé : du 2 au 12 mai 2023

HALathon-Santé : du 2 au 12 mai 2023

    HALathon : principes et fonctionnement Depuis son ouverture en octobre 2020, l’archive ouverte HAL UPCité s’est progressivement enrichie et contient aujourd’hui plus de 100 000 références et 67 000 documents en texte intégral. L’objectif est de mener,...

Dernière mise à jour : 
JJ/MM/AAAA