Dépôts de données de recherche en histoire

Outre des rencontres individuelles avec des chercheuses et des chercheurs en histoire, ce billet a été écrit avec The Transformation of Historical Research in the Digital Age de Milligan (2022, open access).

Données de recherche

Ce sont des données produites lors d’un projet de recherche. Le chercheur peut choisir de les diffuser en ligne, partiellement ou complètement, sur un serveur pérenne dédié.

Les intentions sont principalement :

la reproductibilité et l’intégrité de la démarche de recherche puisqu’on peut télécharger les données et les vérifier.
la réutilisation des données puisque d’autres chercheurs peuvent reprendre les données pour conduire leurs propres recherches.
l’amélioration de la découvrabilité de la recherche puisque non seulement les résultats de la recherche sont publiés (sous la forme d’articles ou autres) mais aussi leurs données brutes.

Même si elle existe depuis longtemps dans certains domaines (aéronautique, nucléaire,…), c’est une « mode » récente de la publication scientifique. Elle est rendue possible par les infrastructures technologiques d’hébergement de grands volumes d’information et par les techniques d’archivage digitales. Elle s’inscrit plus largement dans le prolongement des valeurs de partage et de reproductibilité de la science.

Ainsi, les organismes de financement demandent de plus en plus d’aller dans cette direction. Pour le moment, ils insistent principalement sur la description explicite et détaillée de comment les données sont gérées (et pas forcément diffusées) avec un plan de gestion des données de recherche. Pour le moment, pour le volet diffusion, les organismes de financement sont moins exigeants mais cela pourrait changer dans l’avenir.

État de la question

Tout d’abord, contrairement à d’autres disciplines comme les sciences naturelles ou les sciences sociales ou même l’archéologie, il n’y a pas de dépôt de données de recherche spécialisé en histoire. Cela est dommage car des métadonnées de description, spécifiques à l’histoire, ainsi que des protocoles d’échanges ou d’accès aux données pourraient être développés pour les besoins des historien.nes.

Ainsi, la plupart des données historiques que les historien.nes souhaitent partager se trouvent dans des dépôts institutionnels, ou des dépôts généralistes, ou des sites dédiés.

Peu de diffusion ?

En 2026, les chercheurs en histoire diffusent peu leurs données de recherche.

Il est possible que les chercheurs sous-estiment la réutilisabilité des données de recherche dans le sens où ils pensent qu’ils ont « épuisé » leur corpus et qu’il n’y a rien d’autres à dire de significatif sur le sujet. Cependant, il pourrait y avoir une pertinence dans le cas où le corpus est réutilisé avec une autre méthode de recherche. Par exemple, après avoir fait une histoire de l’édition scientifique de livres d’alchimie, une autre recherche pourrait être produite sur les pratiques de citation de ces livres entre eux.

Il est aussi possible que les chercheurs se retiennent de diffuser des données de recherche pour des raisons de confidentialité, d’éthique ou de droits d’auteur complexes à gérer. Par exemple, pour l’histoire récente ou immédiate, pour l’histoire orale, etc. En effet, toutes les données historiques ne sont pas partageables car « there is a default colonialist worldview around openness that has been rightfully contested » (Milligan 2022 ; voir aussi Christen 2011).

Il est aussi possible que les chercheurs ne veuillent pas donner accès à des données qu’ils ont produites, sur lesquelles ils ont travaillé et dans lesquelles ils ont investit beaucoup de temps et de valeur. On pense à des transcriptions de documents anciens, d’annotation de corpus, etc. Ces données sont souvent qualitatives, non numériques et demandent beaucoup de contexte pour chaque élément. Cela les rend plus coûteuses ou plus difficiles à partager que des données standardisées tabulées par exemple.

Enfin, il semblerait que, dans le domaine de la recherche historique, il y ait peu de prépublications (preprint) et plus généralement peu de diffusion avant la publication officielle finale (« no spoilers »). En effet, il y a une grande valorarisation de l’originalité et une crainte forte de se faire dérober ses résultats (scooping). Ainsi, par association, il est possible que ce comportement influence l’attitude après la publication.

Traditionally, historians would keep this information private while preparing their book, dissertation, or article. They would then keep it mostly private afterwards. This was partly due to fears around being ‘scooped’, still a pressing problem today, as well as seeing it as the fruits of ‘their’ labour. There was also no easy way to share data. In other words, research data in raw form was essentially unpublishable (Milligan 2022).

Diffusion par dépôt peu adaptée ?

Les chercheurs en histoire diffusent parfois leurs données de recherche dans des bases de données « vivantes » qui évoluent au fil du temps. En effet, la modèle classique du dépôt de données en science est de « vitrifier » des données une fois que le projet de recherche est terminé. Or, en histoire, on n’a parfois besoin de continuellement accéder, modifier, ajouter des données. Donc le modèle classique de dépôt n’est pas adapté.

D’autres chercheurs peuvent diffuser sur des sites « vitrines » qui exposent une partie de leurs données sous la forme d’un site web avec des visualisations plus ou moins pérennes.

Datasets will likely be preserved in multiple places, including by the Internet Archive in its periodic internet crawls. Interactive visualizations have shorter lifespans as underlying software packages sunset and end, and it is more difficult to preserve dynamic web content. (Milligan 2022)

Quels que soient les dépôts ou les plateformes, leur accès et leur découvrabilité sont souvent difficiles (case de recherche unique, peu de navigation par collections, métadonnées limitées, peu/pas d’intéropérabilité). Cela n’aide pas à inciter les historien.nes à y déposer leurs données.

Dépôts institutionnels

Idéalement, le chercheur va repérer si son institution propose un dépôt de données de recherche institutionnel. Cela lui garantit un support, un accompagnement, de la formation et un prix inclus.

Borealis

Pour l’Université de Montréal, le dépôt principal s’appelle Borealis. Il est basé sur la plateforme Dataverse.

On peut chercher à travers tous les dépôts Borealis du Canada.

Sujet : Arts et sciences humaines
ou bien Boîte de recherche = histoire
Exemples : Tenants in Time: Family Strategies, Land, and Liberalism in Upper Canada, 1799-1871.

FRDR-DFDR

Il existe aussi la plateforme FRDR-DFDR.

Explorer en allant dans la recherche avancée puis Domaine de recherche puis Histoire, archéologie et études connexes
Exemple : Petrographic Characterization of Raw Material Sources at Oldupai Gorge, Tanzania

ICPSR

L’ICPSR est un consortium d’institutions de recherche en sciences sociales qui offre de nombreuses collections dont celle du Journal of Economic History.Un chercheur peut faire un dépôt personnel sans frais (self-published).
- Exemples : Knowledge Diffusion and Intellectual Change: When Chinese Literati Met European Jesuits
- The Her in Inheritance: How Marriage Matching Has Always Mattered, Quebec 1800–1970

Dépôt généralistes

Les dépôts généralistes sont souvent gérés par des organismes non-gouvernementaux ou para-universitaires. Ils offrent la plupart des services habituels requis :

Dépôts de gros volumes de données
Versionnage des fichiers
Garantie d’un stockage pérenne
Création d’identifiants uniques (DOI, handle, etc.)
Renseignement de métadonnées décrivant les données et interface pour découvrir ces données indexées.
Il existe un inventaire des dépôts de données : Re3data(chercher avec le mot-clé history)

Exemples de dépôts généralistes :

Zenodo

Zenodo est un dépôt généraliste qui contient aussi des articles, des présentations, etc. donc il faut filtrer par Resources Types = dataset
Boîte de recherche : histoire OR history OR historical
Résultats : environ 60+ en 2026
Exemples : Vagrant Lives: 14,789 Vagrants Processed by Middlesex County, 1777-1786
- Virginia Girls’ Reformatory Admissions Database 1910-1938

OSF

OSF est un dépôt généraliste qui contient aussi des articles, des présentations, etc. donc il faut filtrer par Resource Type = dataset
Subject = Arts & Humanities
Boîte de recherche : history
Résultats : environ 7+ en 2026

Figshare

FigShare est un dépôt généraliste.
Browse : History, Heritage & Archeology ; Indigenous studies ; ou autres

QDR

Qualitative Data Repository contient des données de sciences sociales et humaines.
- Exemples : “Russia: The politics and psychology of overcommitment,” in: The ideology of the offensive: Military decision making and the disasters of 1914
- Pedagogical Materials on International Politics and Cold War History

Autres voies

Forges logicielles

Exemples : Github, Gitlab, Codeberg ou Framagit
Les forges logicielles ne sont pas des dépôts pérennes pour des données de recherche. Elles sont cependant utiles pour collaborer et travailler en commun sur des données « vivantes ».
Exemples : Timeline of Electoral Parties in the Republic of Ireland
- Paper Trails: The US Post and the Making of the American West (voir plus bas)

Plateformes dédiées

La plupart des plateformes dédiées proposent des sites web navigables ou des bases de données interrogeables. Cela ne correspond pas tout à fait à l’esprit des données de recherche qui devraient être facilement disponibles au téléchargement en intégralité sous la forme de fichiers de formats ouverts et bien documentés (selon les principes FAIR), avec une garantie de pérennité.

Huma-Num : Pour les chercheurs de France
- Exemples : CARo - Corpus des actes royaux du Moyen-Âge
  - Guide de sources en histoire sociale des Européens en Algérie (1830-1962)
- NB : le service Nakala de Huma-Num offre une solution d’hébergement complète de données de recherche liées à des publications.
Service Kerko UdeM : pour diffuser des données bibliographiques via des bibliothèques de références partagées Zotero.
Site web dédié : par exemple l’Index Thomisticus, la transcription de l’oeuvre intégrale de Thomas d’Aquin par le Père Busa s.j., premier projet d’humanité numérique datant de 1949, a été mis sous CD-ROM en 1989 et en ligne en 2025 mais il n’y a pas de manière de tout télécharger d’un coup (hors web scrapping).

Wikidata, WikiCommons

Wikidata peut héberger des métadonnées, tandis que WikiCommons peut héberger des données brutes (tableaux de données, images, etc.). Les données sont téléchageables en lot (dump) ou par requêtes plus ou moins facilement. Les formats sont ouverts et souvent interopérables. Les données sont plus ou moins décrites avec des métadonnées.
Exemples :
- 100 ans de données météorologiques du Canada (les stations météo sont sur Wikidata, les tableaux de données météo sont dans Wikimédia Commons).
- Numérisation de milliers de tablettes mésopotamiennes

Formations à la GDR en histoire

Lorsque je donne des ateliers sur la GDR en histoire (maîtrise et doctorat), voici le plan de ma formation (1 heure environ) :

Pourquoi la GDR en histoire ?
Rédiger un plan de gestion de données de recherche
Les 4 étages de la fusée (ou du gâteau) :
- Base : stockage et sauvegarde (123, nommage de fichiers, zip, confidentialité infonuagique)
- Étage 1 : descriptions et métadonnées du projet (readme, carnet de labo, etc.)
- Étage 2 : ontologies et organisation des données (thesaurus, normalisation, entités nommées, alignements et reconciliations, données ouvertes liées, etc.)
- Sommet : pérennité et diffusion (rayonnement, droit d’auteur, identifiants pérennes, préservation, archivage, etc.)
Exemples, questions, discussions.
Un chapitre de mon Manuel de recherche documentaire a une section d’exemplespour rédiger un plan de gestion de données de recherche en histoire.

Prospectives

Ian Milligan (2022) pense que la numérisation du travail de l’historien.ne est en train de changer les pratiques vers plus de partage de données de recherche.

… both due to historians increasingly wanting to engage communities as well as firmer direction from granting agencies (…) the increasing professional recognition of these deliverables will hopefully shift the conversation.

Il soutient avec le Centre for History and New Media (2017) que la simple visualisation des données peut contribuer à la conversation scientifique, tout comme un article ou un livre. Il utilise l’exemple de la cartographie animée en ligne (+dataset) des relais postaux aux États-Unis qui accompagna la sortie du livre (Blevins 2021).

Milligan (2022) mentionne aussi l’hésitation à citer les jeux de données, un problème récurrent de la science ouverte (avec l’hésitation à citer les logiciels, etc.).

A related concern is the hesitation to cite datasets. This is both part of the previously discussed tendency to ignore source mediation, as well as an implicit tendency to see data provision as ‘service’ and not properly constituted research.

Il est aussi possible de publier un data paper, c’est-à-dire un article révisé par les pairs qui accompagne un versement de données de recherche. C’est ce que fait la revue Data & Corpus (exemple avec The Jean Nicolas Database. The French Rebellion, 1661-1789). Alors qu’un article classique consiste à rapporter des hypothèses et des conclusions, le but principal d’un data paper est de décrire des données et les circonstances de leur collection.

Enfin, une autre possibilité consiste à publier les données de recherche en même temps que la publication scientifique des résultats. Cela demande une plateforme avancée. C’est le pari ambitieux qu’a fait la revue Journal of Digital History puisqu’on y trouve des articles révisés par les pairs, avec les données de recherche, avec les visualisations et avec le code source (exemple avec Gaming the Qing Mandarinate: Digital Approaches to a Nineteenth-Century Chinese Board Game).

Bibliographie

Blevins, Cameron, Paper Trails: The US Post and the Making of the American West. New York: Oxford University Press, 2021. https://cblevins.github.io/us-post-offices/

Christen, Kimberly, ‘Opening Archives: Respectful Repatriation’, American Archivist, 74, no. 1 (2011), 185–210. https://www.jstor.org/stable/23079006

Centre for History and New Media, Digital History & Argument white paper, George Mason University, 2017. https://rrchnm.org/portfolio-item/digital-history-argument-white-paper/

Milligan, Ian. The Transformation of Historical Research in the Digital Age. Cambridge: Cambridge University Press, 2022 https://doi.org/10.1017/9781009026055

Remerciements : Nino Gabrielli pour la relecture du billet.