Dépots de données de recherche en histoire

Où l’on explore des voies et des pratiques pour diffuser des données de recherche en histoire.
HumanitésNumériques
Author

Pascal Martinolli

Published

February 18, 2026

Outre des rencontres individuelles avec des chercheuses et des chercheurs en histoire, ce billet a été écrit avec The Transformation of Historical Research in the Digital Age de Milligan (2022, open access).

Données de recherche

Ce sont des données produites lors d’un projet de recherche. Le chercheur peut choisir de les diffuser en ligne, partiellement ou complètement, sur un serveur pérenne dédié.

Les intentions sont principalement :

  • la reproductibilité et l’intégrité de la démarche de recherche puisqu’on peut télécharger les données et les vérifier.
  • la réutilisation des données puisque d’autres chercheurs peuvent reprendre les données pour conduire leurs propres recherches.
  • l’amélioration de la découvrabilité de la recherche puisque non seulement les résultats de la recherche sont publiés (sous la forme d’articles ou autres) mais aussi leurs données brutes.

Même si elle existe depuis longtemps dans certains domaines (aéronautique, nucléaire,…), c’est une mode récente de la publication scientifique qui est rendue possible par les infrastructures technologiques d’hébergement de grands volumes d’information et de techniques d’archivage digitales.

Les organismes de financement demandent de plus en plus cette dimension, ou du moins de détailler comment les données sont gérées (pas forcément diffusées) avec un plan de gestion des données de recherche détaillé et explicite.

État de la question

Tout d’abord, contrairement à d’autres disciplines comme les sciences naturelles, il n’y a pas de dépôt de données de recherche spécialisé en histoire. Cela est dommage car des métadonnées de description spécifiques à l’histoire ainsi que des protocoles d’échanges ou d’accès aux données pourraient être développés pour les besoins des historiens.

Ainsi, la plupart des données historiques que les historien.nes souhaitent partager se trouvent dans des dépôts généralistes, ou des dépôts institutionnels, ou des sites dédiés.

Peu de diffusion ?

En 2026, les chercheurs en histoire diffusent peu leurs données de recherche.

Il est possible que les chercheurs sous-estiment la réutilisabilité des données de recherche dans le sens où ils pensent qu’ils ont « épuisé » leur corpus et qu’il n’y a rien d’autres à dire de significatif sur le sujet. Le cas où il pourrait y avoir une pertinence serait l’utilisation du corpus mais avec une autre méthode de recherche (par exemple, après avoir fait une histoire de l’édition scientifique de livres d’alchimie, un autre chercheur fait une étude des pratiques de citation des livres entre eux).

Il est aussi possible que les chercheurs soient retenus de diffuser des données de recherche pour des raisons de confidentialité, d’éthique ou de droits d’auteur complexes. Par exemple, pour l’histoire récente ou immédiate, pour l’histoire orale, etc. En effet, toutes les données historiques ne sont pas partageables car « there is a default colonialist worldview around openness that has been rightfully contested » (Milligan 2022 ; voir aussi Christen 2011).

Il est aussi possible que les chercheurs ne veuillent pas donner accès à des données qu’ils ont produites, sur lesquelles ils ont travaillé et dans lesquelles ils ont investit beaucoup de temps et de valeur. On pense à des transcriptions de documents anciens, d’annotation de corpus, etc. Ces données sont souvent qualitatives, non numériques et demandent beaucoup de contexte pour chaque élément. Cela les rend plus coûteuses ou plus difficiles à partager que des données standardisées tabulées par exemple.

Il semblerait que, dans le domaine de la recherche historique, il y ait peu de prépublications (preprint) et plus généralement peu de diffusion avant la publication officielle finale (« no spoilers »). En effet, il y a une grande valorarisation de l’originalité et une crainte forte de se faire dérober ses résultats (scooping). Ainsi, par association, il est possible que ce comportement influence l’attitude après la publication.

Traditionally, historians would keep this information private while preparing their book, dissertation, or article. They would then keep it mostly private afterwards. This was partly due to fears around being ‘scooped’, still a pressing problem today, as well as seeing it as the fruits of ‘their’ labour. There was also no easy way to share data. In other words, research data in raw form was essentially unpublishable (Milligan 2022).

Diffusion par dépôt peu adaptée ?

Les chercheurs en histoire diffusent parfois leurs données de recherche dans des bases de données « vivantes » qui évoluent au fil du temps. En effet, la modèle classique du dépôt de données en science est de « vitrifier » des données une fois que le projet de recherche est terminé. Or, en histoire, on n’a parfois besoin de continuellement accéder, modifier, ajouter des données. Donc le modèle classique de dépôt n’est pas adapté.

D’autres chercheurs peuvent diffuser sur des sites « vitrines » qui exposent une partie de leurs données sous la forme d’un site web avec des visualisations plus ou moins pérennes.

Datasets will likely be preserved in multiple places, including by the Internet Archive in its periodic internet crawls. Interactive visualizations have shorter lifespans as underlying software packages sunset and end, and it is more difficult to preserve dynamic web content. (Milligan 2022)

Quels que soient les dépôts ou les plateformes, leur accès et leur découvrabilité sont souvent difficiles (case de recherche unique, peu de navigation par collections, métadonnées limitées, peu/pas d’intéropérabilité). Cela n’aide pas à inciter les historien.nes à y déposer leurs données.

Dépôts institutionnels

Idéalement, le chercheur va repérer si son institution propose un dépôt de données de recherche institutionnel. Cela lui garantit un support, un accompagnement, de la formation et un prix inclus.

Borealis

Pour l’Université de Montréal, le dépôt principal s’appelle Borealis. Il est basé sur la plateforme Dataverse.

On peut chercher à travers tous les dépôts Borealis du Canada.

FRDR-DFDR

Il existe aussi la plateforme FRDR-DFDR.

ICPSR

Dépôt généralistes

Les dépôts généralistes sont souvent gérés par des organismes non-gouvernementaux ou para-universitaires. Ils offrent la plupart des services habituels requis :

  • Dépôts de gros volumes de données

  • Versionnage des fichiers

  • Garantie d’un stockage pérenne

  • Création d’identifiants uniques (DOI, handle, etc.)

  • Renseignement de métadonnées décrivant les données et interface pour découvrir ces données indexées.

  • Il existe un inventaire des dépôts de données : Re3data(chercher avec le mot-clé history)

Exemples de dépôts généralistes :

Zenodo

OSF

  • OSF est un dépôt généraliste qui contient aussi des articles, des présentations, etc. donc il faut filtrer par Resource Type = dataset

  • Subject = Arts & Humanities

  • Boîte de recherche : history

  • Résultats : environ 7+ en 2026

Figshare

QDR

Autres voies

Forges logicielles

Plateformes dédiées

Wikidata, WikiCommons

Formations à la GDR en histoire

Lorsque je donne des ateliers sur la GDR en histoire (maîtrise et doctorat), voici le plan de ma formation (1 heure environ) :

  • Pourquoi la GDR en histoire ?

  • Rédiger un plan de gestion de données de recherche

  • Les 4 étages de la fusée (ou du gâteau) :

    • Base : stockage et sauvegarde (123, nommage de fichiers, zip, confidentialité infonuagique)

    • Étage 1 : descriptions et métadonnées du projet (readme, carnet de labo, etc.)

    • Étage 2 : ontologies et organisation des données (thesaurus, normalisation, entités nommées, alignements et reconciliations, données ouvertes liées, etc.)

    • Sommet : pérennité et diffusion (rayonnement, droit d’auteur, identifiants pérennes, préservation, archivage, etc.)

  • Exemples, questions, discussions.

  • Un chapitre de mon Manuel de recherche documentaire a une section d’exemples pour l’histoire.

Prospectives

Ian Milligan (2022) pense que la numérisation du travail de l’historien.ne est en train de changer les pratiques vers plus de partage de données de recherche.

… both due to historians increasingly wanting to engage communities as well as firmer direction from granting agencies (…) the increasing professional recognition of these deliverables will hopefully shift the conversation.

Il soutient avec le Centre for History and New Media (2017) que la simple visualisation des données peut contribuer à la conversation scientifique, tout comme un article ou un livre. Il utilise l’exemple de la cartographie animée en ligne (+dataset) des relais postaux aux États-Unis qui accompagna la sortie du livre (Blevins 2021).

Milligan (2022) mentionne aussi l’hésitation à citer les jeux de données, un problème récurrent de la science ouverte (avec l’hésitation à citer les logiciels, etc.).

A related concern is the hesitation to cite datasets. This is both part of the previously discussed tendency to ignore source mediation, as well as an implicit tendency to see data provision as ‘service’ and not properly constituted research.

Il est aussi possible de publier des data papers qui accompagnent un versement de données de recherche. C’est ce que fait la revue Data & Corpus (exemple avec The Jean Nicolas Database. The French Rebellion, 1661-1789).

Enfin, une autre possibilité consiste à publier les données de recherche en même temps que la publication scientifique. Cela demande une plateforme avancée. C’est le pari ambitieux qu’a fait la revue Journal of Digital History puisqu’on y trouve des articles révisés par les pairs, avec les données de recherche, les visualisations et le code source (exemple avec Gaming the Qing Mandarinate: Digital Approaches to a Nineteenth-Century Chinese Board Game).

Bibliographie

Blevins, Cameron, Paper Trails: The US Post and the Making of the American West. New York: Oxford University Press, 2021. https://cblevins.github.io/us-post-offices/

Christen, Kimberly, ‘Opening Archives: Respectful Repatriation’, American Archivist, 74, no. 1 (2011), 185–210. https://www.jstor.org/stable/23079006

Centre for History and New Media, Digital History & Argument white paper, George Mason University, 2017. https://rrchnm.org/portfolio-item/digital-history-argument-white-paper/

Milligan, Ian. The Transformation of Historical Research in the Digital Age. Cambridge: Cambridge University Press, 2022 https://doi.org/10.1017/9781009026055


Remerciements : Nino Gabrielli pour la relecture du billet.