Déposer

Déposer dans des entrepôts de données vos données produites au cours de votre projet de recherche participe pleinement du mouvement d’ouverture de la science : cette bonne pratique permet à la fois de garantir et appuyer la transparence et l’intégrité scientifique de votre recherche, et de permettre à d’autres chercheurs de réutiliser vos données dans une logique de cumulativité de la science.

« Ouvrir ses données autant que possible, les fermer autant que nécessaire »

Certaines données ne peuvent pas être ouvertes en l’état, comme les données à caractère personnel, les données sensibles, les données relevant du secret économique, secret défense, secret médical etc.. Le guide juridique sur l’ouverture des données de la recherche, réalisé par un collectif de juristes de l’enseignement supérieur et de la recherche, explique les principes à respecter en matière de diffusion des données. De même, il peut être utile de consulter un logigramme qui facilite la prise de décision : celui de l’Institut Pasteur est accessible ou, sous une forme dynamique, celui réalisé par l’École des Ponts et chaussées.

Déposer ses données : quelles possibilités ?

De ce fait, vous avez la possibilité :

  • De déposer votre jeu de données dans des entrepôts ouvertement et sans restriction, pour qu’ils soient accessibles et téléchargeables directement pour tout public

  • De seulement référencer votre jeu de données dans un entrepôt ou catalogue sans donner accès au téléchargement des données (accès fermé) ou en donnant accès avec restriction, avec demande d’autorisation préalable ou avec un embargo.

Trouver un entrepôt approprié

Nous recommandons de déposer vos données dans des entrepôts disciplinaires ou même si possible de votre « micro-discipline » : par exemple, si vous produisez des données en sciences humaines et sociales, il est recommandé d’utiliser l’entrepôt de données NAKALA, mais il est recommandé pour les linguistes d’utiliser l’entrepôt ORTOLANG spécialisé pour l’hébergement des données linguistiques. Parmi les entrepôts spécialisés, à noter l’entrepôt GBIF pour les données de biodiversité ou l’entrepôt Pangaea pour les données de géosciences..

Pour identifier l’entrepôt de données adéquat, vous pouvez utiliser des méta-moteurs de recherche comme le site Re3data ou le site Cat Opidor. Vous pouvez aussi chercher votre entrepôt dans des moteurs de recherche disciplinaire comme FAIRsharing en Sciences de la Vie, DATACC en Physique ou Chimie.

Si vous n’avez pas identifié d’entrepôts disciplinaires pertinents, vous pouvez déposer vos données dans des entrepôts généralistes comme le dispositif français Recherche Data Gouv ou les entrepôts internationaux généralistes comme Zenodo très utilisé par la communauté de recherche.

S’assurer de la qualité de l’entrepôt de données

PAfin de s’assurer que l’entrepôt identifié soit sûr et que les données déposées soient FAIR, il est recommandé de s’informer des modalités de dépôt, en s’assurant des éléments suivants :

  • Quel format de fichier sont acceptés ?

  • Quelle volumétrie est possible ?

  • Quelles sont les modalités d’accès aux données : y-a-t-il possibilité de restriction ou d’embargo ?

  • Quelle est la durée de préservation ?

  • Est-ce que l’entrepôt fourni un DOI associé aux jeux de données pour en faciliter la citation ?

  • Quels types de métadonnées peuvent être renseignés pour décrire les données ?

  • Quelles licences sont acceptées pour apposer à vos jeux de données ?

  • L’entrepôt bénéficie-t-il d’une certification ?

  • Y-a-t-il des informations sur la localisation du serveur qui stocke les données ?

  • Y-a-t-il un coût pour l’entreposage des données ?

Afin de s’assurer que l’entrepôt identifié soit sûr et que les données déposées soient FAIR, il est recommandé de s’informer des modalités de dépôt, en s’assurant des éléments suivants :

  • format de fichier accepté, modalité d’accès, facilité du dépôt
  • durée de préservation des données, qualité de préservation des données
  • certification de l’entrepôt (si possible)
  • identifiants pérennes associés aux jeux de données (ex : DOI)
  • précisions des métadonnées
  • mode d’accès
  • licences acceptées
  • localisation du serveur
  • coût éventuel

Différents modes de consultation du jeu de données sont possibles au sein d’un entrepôt : accès ouvert, accès ouvert après demande d’une autorisation, dépôt sous embargo, accès fermé. Dans ce dernier cas, seules les métadonnées peuvent être accessibles, et permettent lorsque le jeu de donnée l’exige, de respecter les principes FAIR. Les données déposées dans des entrepôts peuvent être ou non associées à une publication.

Différentes licences peuvent être utilisées pour la diffusion (et la réutilisation) des données : Licence Ouverte établie par le gouvernement (Etalab) – ou une licence compatible avec elle – et la licence ODbL pour les bases de données. Pour plus de précisions, voir le site data.gouv.

Pour aller plus loin :

Pour toute question sur le choix d’un entrepôt : donnees.recherche.dbm[a]listes.u-paris.fr

Documenter ses données et apposer une licence ouverte

Que vos données soient accessibles ou simplement référencées, il est indispensable de les documenter le plus précisément possible pour qu’elles soient facilement trouvable dans les moteurs de recherche par les machines et donc par les chercheurs potentiellement intéressés. L’utilisation de standards de métadonnées (documentation) pour décrire vos données de la façon la plus pertinente est fortement recommandée. Pour trouver le standard de documentation disciplinaire le plus pertinent, vous pouvez vous appuyer sur le site DCC.

Par ailleurs, pour autoriser juridiquement la réutilisation de vos données, il est nécessaire d’apposer une licence à vos données, certaines licences sont spécifiques au partage de jeux de données comme la Licence Ouverte (LO) créée par le gouvernement, ou la licence ODbL, mais il est également possible d’apposer une licence Creative Commons et appliquer ses spécificités et restrictions.

Ecrire un Data Paper pour valoriser vos données

Un data paper est un article scientifique dédié à la présentation et la valorisation d’un jeu de données. Cet article, en décrivant finement un jeu de données, vise à en présenter l’originalité, la portée scientifique, d’insister et démontrer la qualité des produites et de présenter la méthodologie de collecte de ces données.

Sauf restrictions particulière, les data papers donnent généralement accès au jeu de données présenté, dans un fichier attaché à l’article, ou en renseignant un lien pérenne (URL, DOI) vers l’entrepôt où il est déposé.

Comme toute publication scientifique, un data papers est soumis à l’évaluation par les pairs, et est donc publié dans des revues, soit des revues dédiées spécifiquement aux data papers ou aux questions de méthodologies de recherche, soit des revues généralistes ou disciplinaires qui acceptent ce format de publication.

Le data paper permet ainsi de valoriser les données en leur donnant une plus grande visibilité et accroit leur impact en promouvant leur réutilisation. Ce type de publication est particulièrement approprié pour les jeux de données ayant un fort potentiel de réutilisation pour la recherche, qu’ils apportent un savoir générique important, ou si la construction des données a été particulièrement chronophage (compilation de données historiques, d’archives par exemple) et dont le partage à la communauté de recherche constitue une avancée et un gain de temps considérable.

On ne confondra pas les informations fournies par un data paper, avec celles qu’on l’on donne lorsqu’on rédige un Plan de Gestion de Données (PGD) même si ces deux documents peuvent contenir des informations similaires.

À lire aussi

Dernière mise à jour : 
28/05/2025