Trouver

Réutiliser des données existantes et diversifier les sources de données pour sa recherche est une pratique de plus en plus courante pour l’ensemble des disciplines et encouragée par le mouvement pour la Science Ouverte qui vise à « construire un écosystème dans lequel la science sera plus cumulative, et plus fortement étayée par des données (…) » (Site Ouvrir la Science).

Le mouvement de la Science ouverte et la mise à disposition des données publiques et des données de la recherche (open data) favorisent la diffusion des données en accès libre et ouvert et leur réutilisation par les communautés de recherche.

Types de données en Open data

On peut distinguer deux types de données d’accès public :

  • Les données publiques des administrations (Services Statistiques des Ministères, Sécurité Sociale…), des instituts publics (INSEE, INED …), des agences, observatoires, bureaux d’études ou de recherche publics ou semi-publics, et des collectivités territoriales

  • Les données produites par les chercheurs et équipes de recherche

Parmi les données de l’open data, on trouve les données de la recherche, assimilées à des données publiques.

Afin de trouver des données, deux démarches peuvent être entreprises :

  • Rechercher des données publiques au sein de plateformes, qui partagent en accès libre et ouvert, des données administratives, publiques, les données en open data.
  • Rechercher des données de recherche, associées ou non à des publications, grâce à des moteurs de recherche ou directement au sein d’entrepôts de données.

La recherche de données publiées permet d’envisager de nouvelles perspectives de recherche en établissant son corpus et la méthodologie de collecte de ses données.

Pour en savoir plus :

 

Accès aux données publiques

L’accès à ces différents types de données se fait généralement via des catalogues et/ou entrepôts de données distincts. Pour les données de la statistique publique en open data, le site https://www.etalab.gouv.fr/, est le principal pourvoyeur pour les données françaises, au niveau européen, l’équivalent est la plateforme data.europa.eu/data et Eurostat est l’office statistique de l’UE.

Il est aussi important de regarder directement sur le site des producteurs quels qu’ils soient car les producteurs de données ne référencent pas systématiquement leurs données dans les catalogues et entrepôts disciplinaire ou généraliste

Les données ne sont pas toutes accessibles librement, leur ouverture doit suivre le principe « aussi ouvert que possible, aussi fermé que nécessaire. En effet, le RGPD réglemente la diffusion des données à caractère personnel et oblige à ce que les données ouvertes soient complétement anonymes au sens de la loi selon les préconisations de la CNIL  ; d’autres principes peuvent restreindre l’ouverture des données, comme les brevets, la propriété intellectuelle, le secret défense etc… Accéder à ces données pour enrichir votre recherche doit dans ce genre de situation passer par des procédures spécifiques.

Deux dispositifs permettent pour les chercheurs d’accéder à des données protégées de la statistique publique: l’accès facilité aux données pseudonymisées pour la recherche via le dispositif Quetelet-Progedo et le catalogue data.progedo.fr, et le dispositif CASD (Centre d’Accès Sécurisé aux Données), sécurisé et payant, permettant d’accéder à des données brutes très détaillées.

Certains dispositif proposent l’accès à des données dans différents champs disciplinaire, comme le Portail Epidémiologie – France et le Health Data Hub qui centralisent les données de santé ou encore les données accessible via la plateforme Data Terra donnant accès aux données du système terre (terre solide, océan, atmosphère, biodiversité…)

Accès aux données de la recherche

Le mouvement pour l’ouverture de la science encourage la mise à disposition et la réutilisation des données de la recherche. Pour trouver des données de recherche, il est recommandé d’identifier les entrepôts thématiques de votre discipline, meta-discipline (Sciences humaines et sociales, Sciences de la Vie, Santé …) ou même si possible de votre « micro-discipline » : par exemple, si vous produisez des données en sciences humaines et sociales, il est recommandé d’utiliser l’entrepôt de données NAKALA, mais il est recommandé pour les linguistes d’utiliser l’entrepôt ORTOLANG spécialisé pour l’hébergement des données linguistiques.

Pour identifier les entrepôts de confiance dans votre discipline, il est recommandé de vous renseigner sur les pratiques des chercheurs de votre discipline. Vous pouvez aussi consulter la liste des entrepôts de confiance du site Ouvrir la Science, et utiliser des méta-moteurs comme le répertoire Re3data qui liste les entrepôts de données dans le monde entier.

Si vous ne connaissez pas les entrepôts disciplinaires de votre champs de recherche, vous pouvez recherche dans les entrepôts généralistes comme le dispositif français Recherche Data Gouv ou les entrepôts internationaux généralistes comme Zenodo très utilisé par la communauté de recherche. De la même manière, certains moteurs de recherche généralistes permettent d’accéder à des jeux de données comme OpenAire|Explore ou le moteur Dataset Search

Les données privées d’intérêt général

Certaines entreprises, privée ou semi-publiques peuvent donner accès à leurs données pour les chercheurs. Certaines données privées d’intérêt comme les données de transport et mobilité, de télécommunication ou de plateformes de réseaux sociaux peuvent intéresser la communauté de recherche. On parle dans ces cas de « données d’intérêt général » dont l’accès pour la recherche doit être négocié.

À lire aussi

Dernière mise à jour : 
28/05/2025