Outre des rencontres individuelles avec des chercheuses et des chercheurs en histoire, ce billet a été écrit avec The Transformation of Historical Research in the Digital Age de Milligan (2022, open access).
Données de recherche
Ce sont des données produites lors d’un projet de recherche. Le chercheur peut choisir de les diffuser en ligne, partiellement ou complètement, sur un serveur pérenne dédié.
Les intentions sont principalement :
- la reproductibilité et l’intégrité de la démarche de recherche puisqu’on peut télécharger les données et les vérifier.
- la réutilisation des données puisque d’autres chercheurs peuvent reprendre les données pour conduire leurs propres recherches.
- l’amélioration de la découvrabilité de la recherche puisque non seulement les résultats de la recherche sont publiés (sous la forme d’articles ou autres) mais aussi leurs données brutes.
Même si elle existe depuis longtemps dans certains domaines (aéronautique, nucléaire,…), c’est une mode récente de la publication scientifique qui est rendue possible par les infrastructures technologiques d’hébergement de grands volumes d’information et de techniques d’archivage digitales.
Les organismes de financement demandent de plus en plus cette dimension, ou du moins de détailler comment les données sont gérées (pas forcément diffusées) avec un plan de gestion des données de recherche détaillé et explicite.
État de la question
Tout d’abord, contrairement à d’autres disciplines comme les sciences naturelles, il n’y a pas de dépôt de données de recherche spécialisé en histoire. Cela est dommage car des métadonnées de description spécifiques à l’histoire ainsi que des protocoles d’échanges ou d’accès aux données pourraient être développés pour les besoins des historiens.
Ainsi, la plupart des données historiques que les historien.nes souhaitent partager se trouvent dans des dépôts généralistes, ou des dépôts institutionnels, ou des sites dédiés.
Peu de diffusion ?
En 2026, les chercheurs en histoire diffusent peu leurs données de recherche.
Il est possible que les chercheurs sous-estiment la réutilisabilité des données de recherche dans le sens où ils pensent qu’ils ont « épuisé » leur corpus et qu’il n’y a rien d’autres à dire de significatif sur le sujet. Le cas où il pourrait y avoir une pertinence serait l’utilisation du corpus mais avec une autre méthode de recherche (par exemple, après avoir fait une histoire de l’édition scientifique de livres d’alchimie, un autre chercheur fait une étude des pratiques de citation des livres entre eux).
Il est aussi possible que les chercheurs soient retenus de diffuser des données de recherche pour des raisons de confidentialité, d’éthique ou de droits d’auteur complexes. Par exemple, pour l’histoire récente ou immédiate, pour l’histoire orale, etc. En effet, toutes les données historiques ne sont pas partageables car « there is a default colonialist worldview around openness that has been rightfully contested » (Milligan 2022 ; voir aussi Christen 2011).
Il est aussi possible que les chercheurs ne veuillent pas donner accès à des données qu’ils ont produites, sur lesquelles ils ont travaillé et dans lesquelles ils ont investit beaucoup de temps et de valeur. On pense à des transcriptions de documents anciens, d’annotation de corpus, etc. Ces données sont souvent qualitatives, non numériques et demandent beaucoup de contexte pour chaque élément. Cela les rend plus coûteuses ou plus difficiles à partager que des données standardisées tabulées par exemple.
Il semblerait que, dans le domaine de la recherche historique, il y ait peu de prépublications (preprint) et plus généralement peu de diffusion avant la publication officielle finale (« no spoilers »). En effet, il y a une grande valorarisation de l’originalité et une crainte forte de se faire dérober ses résultats (scooping). Ainsi, par association, il est possible que ce comportement influence l’attitude après la publication.
Traditionally, historians would keep this information private while preparing their book, dissertation, or article. They would then keep it mostly private afterwards. This was partly due to fears around being ‘scooped’, still a pressing problem today, as well as seeing it as the fruits of ‘their’ labour. There was also no easy way to share data. In other words, research data in raw form was essentially unpublishable (Milligan 2022).
Diffusion par dépôt peu adaptée ?
Les chercheurs en histoire diffusent parfois leurs données de recherche dans des bases de données « vivantes » qui évoluent au fil du temps. En effet, la modèle classique du dépôt de données en science est de « vitrifier » des données une fois que le projet de recherche est terminé. Or, en histoire, on n’a parfois besoin de continuellement accéder, modifier, ajouter des données. Donc le modèle classique de dépôt n’est pas adapté.
D’autres chercheurs peuvent diffuser sur des sites « vitrines » qui exposent une partie de leurs données sous la forme d’un site web avec des visualisations plus ou moins pérennes.
Datasets will likely be preserved in multiple places, including by the Internet Archive in its periodic internet crawls. Interactive visualizations have shorter lifespans as underlying software packages sunset and end, and it is more difficult to preserve dynamic web content. (Milligan 2022)
Quels que soient les dépôts ou les plateformes, leur accès et leur découvrabilité sont souvent difficiles (case de recherche unique, peu de navigation par collections, métadonnées limitées, peu/pas d’intéropérabilité). Cela n’aide pas à inciter les historien.nes à y déposer leurs données.
Dépôts institutionnels
Idéalement, le chercheur va repérer si son institution propose un dépôt de données de recherche institutionnel. Cela lui garantit un support, un accompagnement, de la formation et un prix inclus.
Borealis
Pour l’Université de Montréal, le dépôt principal s’appelle Borealis. Il est basé sur la plateforme Dataverse.
On peut chercher à travers tous les dépôts Borealis du Canada.
Sujet : Arts et sciences humainesou bien Boîte de recherche =
histoireExemples : Tenants in Time: Family Strategies, Land, and Liberalism in Upper Canada, 1799-1871.
FRDR-DFDR
Il existe aussi la plateforme FRDR-DFDR.
Explorer en allant dans la recherche avancée puis Domaine de recherche puis Histoire, archéologie et études connexes
Exemple : Petrographic Characterization of Raw Material Sources at Oldupai Gorge, Tanzania
ICPSR
L’ICPSR est un consortium d’institutions de recherche qui offre de nombreuses collections dont celle du Journal of Economic History.Un chercheur peut faire un dépôt personnel sans frais (self-published).
Dépôt généralistes
Les dépôts généralistes sont souvent gérés par des organismes non-gouvernementaux ou para-universitaires. Ils offrent la plupart des services habituels requis :
Dépôts de gros volumes de données
Versionnage des fichiers
Garantie d’un stockage pérenne
Création d’identifiants uniques (DOI, handle, etc.)
Renseignement de métadonnées décrivant les données et interface pour découvrir ces données indexées.
Il existe un inventaire des dépôts de données : Re3data(chercher avec le mot-clé
history)
Exemples de dépôts généralistes :
Zenodo
Zenodo est un dépôt généraliste qui contient aussi des articles, des présentations, etc. donc il faut filtrer par
Resources Types = datasetBoîte de recherche :
histoire OR history OR historicalRésultats : environ 60+ en 2026
Exemples : Vagrant Lives: 14,789 Vagrants Processed by Middlesex County, 1777-1786
OSF
OSF est un dépôt généraliste qui contient aussi des articles, des présentations, etc. donc il faut filtrer par
Resource Type = datasetSubject = Arts & Humanities
Boîte de recherche :
historyRésultats : environ 7+ en 2026
QDR
- Qualitative Data Repository contient des données de sciences sociales et humaines.
Autres voies
Forges logicielles
Les forges logicielles ne sont pas des dépôts pérennes pour des données de recherche.
Elles sont cependant utiles pour collaborer et travailler en commun sur des données « vivantes ».
Exemples : Timeline of Electoral Parties in the Republic of Ireland
- Paper Trails: The US Post and the Making of the American West (voir plus bas)
Plateformes dédiées
Huma-Num : Pour les chercheurs de France (service Nakala par exemple)
Service Kerko UdeM : pour diffuser des données bibliographiques
Wikidata, WikiCommons
Wikidata peut héberger des métadonnées, tandis que WikiCommons peut héberger des données brutes (tableaux de données, images, etc.)
Exemples :
Formations à la GDR en histoire
Lorsque je donne des ateliers sur la GDR en histoire (maîtrise et doctorat), voici le plan de ma formation (1 heure environ) :
Pourquoi la GDR en histoire ?
Rédiger un plan de gestion de données de recherche
Les 4 étages de la fusée (ou du gâteau) :
Base : stockage et sauvegarde (123, nommage de fichiers, zip, confidentialité infonuagique)
Étage 1 : descriptions et métadonnées du projet (readme, carnet de labo, etc.)
Étage 2 : ontologies et organisation des données (thesaurus, normalisation, entités nommées, alignements et reconciliations, données ouvertes liées, etc.)
Sommet : pérennité et diffusion (rayonnement, droit d’auteur, identifiants pérennes, préservation, archivage, etc.)
Exemples, questions, discussions.
Un chapitre de mon Manuel de recherche documentaire a une section d’exemples pour l’histoire.
Prospectives
Ian Milligan (2022) pense que la numérisation du travail de l’historien.ne est en train de changer les pratiques vers plus de partage de données de recherche.
… both due to historians increasingly wanting to engage communities as well as firmer direction from granting agencies (…) the increasing professional recognition of these deliverables will hopefully shift the conversation.
Il soutient avec le Centre for History and New Media (2017) que la simple visualisation des données peut contribuer à la conversation scientifique, tout comme un article ou un livre. Il utilise l’exemple de la cartographie animée en ligne (+dataset) des relais postaux aux États-Unis qui accompagna la sortie du livre (Blevins 2021).
Milligan (2022) mentionne aussi l’hésitation à citer les jeux de données, un problème récurrent de la science ouverte (avec l’hésitation à citer les logiciels, etc.).
A related concern is the hesitation to cite datasets. This is both part of the previously discussed tendency to ignore source mediation, as well as an implicit tendency to see data provision as ‘service’ and not properly constituted research.
Il est aussi possible de publier des data papers qui accompagnent un versement de données de recherche. C’est ce que fait la revue Data & Corpus (exemple avec The Jean Nicolas Database. The French Rebellion, 1661-1789).
Enfin, une autre possibilité consiste à publier les données de recherche en même temps que la publication scientifique. Cela demande une plateforme avancée. C’est le pari ambitieux qu’a fait la revue Journal of Digital History puisqu’on y trouve des articles révisés par les pairs, avec les données de recherche, les visualisations et le code source (exemple avec Gaming the Qing Mandarinate: Digital Approaches to a Nineteenth-Century Chinese Board Game).
Bibliographie
Blevins, Cameron, Paper Trails: The US Post and the Making of the American West. New York: Oxford University Press, 2021. https://cblevins.github.io/us-post-offices/
Christen, Kimberly, ‘Opening Archives: Respectful Repatriation’, American Archivist, 74, no. 1 (2011), 185–210. https://www.jstor.org/stable/23079006
Centre for History and New Media, Digital History & Argument white paper, George Mason University, 2017. https://rrchnm.org/portfolio-item/digital-history-argument-white-paper/
Milligan, Ian. The Transformation of Historical Research in the Digital Age. Cambridge: Cambridge University Press, 2022 https://doi.org/10.1017/9781009026055
Remerciements : Nino Gabrielli pour la relecture du billet.