47 Gestion des données de recherche

Les données de recherche sont des informations obtenues par observation, expérimentation ou tirées de sources préexistantes, puis analysées dans le but de générer ou de confirmer des résultats originaux dans le domaine de la recherche.
En premier lieu, une bonne pratique récente consiste à penser, produire et suivre un plan de gestion des données de recherche (PGD).
En second lieu, les chercheurs peuvent décider de diffuser tout ou une partie de leur données dans un dépôt, ou un document de métadonnées, ou un article de données,…

47.1 Pourquoi gérer des données de recherche ?

47.1.0.1 Exigences éthiques

Pour répondre aux exigences de certains fonds de recherche, de vos publications, de votre diplôme, etc.
- Pour le moment (en 2024),
  - Certains organismes de financement ne demandent que les PGDs seulement, pas les jeux de données (dataset) ;
  - Certaines revues ne demandent que les jeux de données, après soumission d’un article à réviser par les pairs utilisant ces données.
Pour donner plus de chance à une demande de financement.
Pour montrer le sérieux et la robustesse de votre démarche.
Pour garantir un suivi ou une transmission à d’autres si vous abandonnez votre recherche.

47.1.0.2 Bien planifier

Pour bien distinguer toutes les phases de la gestion des données :
- La conception d’un PGD, au début et au cours de la recherche.
- La gestion des données actives, pendant la recherche.
- L’archivage complet ou partiel des données dans un dépôt
  - (avec une dimension de réutilisation, et avec peut être une dimension de préservation)
  - ou l’archivage d’un document de métadonnées (metadata paper).
- La rédaction d’un article de données (data paper).

47.1.0.3 Bien travailler

Pour faciliter l’utilisation des données pendant vos recherches par les équipes qui travaillent dessus.
Pour rendre votre recherche plus reproductible, vérifiable, robuste et fiable.
Expliciter et établir les lignes directrices de la gestion de vos données et documenter le projet au fur et à mesure.
Augmenter votre efficacité, réduire la redondance des données, repérer les problèmes en avance, expliciter votre processus de recherche, …
Définir les rôles de tous les collaborateurs et contributeurs.
Réduire les risques de perte de données; ou de non-respect des règles légales, éthiques, ou des politiques (confidentialité, droit d’auteur,…).
Établir en avance quelles données seront versées lors de l’archivage final, une fois la recherche terminée (voire peut-être établir des processus de versement des données pendant que la recherche se fait).

47.1.0.4 Rayonner

Pour montrer sa productivité scientifique :
- Vos investigations, votre réseau, vos méthodes, votre organisation, …
- La quantité et la qualité de votre travail des sources.
Pour rendre vos données mieux découvrables, et mieux réutilisables.
- Car tout jeu de données devrait être : « Intelligible pour les humains (donc bien documenté), lisible par les machines (donc bien séquencé), visible dans les systèmes (donc bien lié). » Source
La gestion des données de recherche est encore peu valorisée comparée aux diffusions « classiques » de la science (articles révisés par les pairs, monographies,…) :
- Peu de droit d’auteur ou d’attribution à faire valoir ;
- Peu de reconnaissance de publication.
- Un data paper peut être une manière de valoriser ses données.
Pour mettre en action votre adhésion aux valeurs du bien commun ou des « communs » (des ressources partagées et gérées collectivement par une communauté).

47.2 Comment gérer ses données ?

47.2.0.1 Surtout

En élaborant un outil dédié : un plan de gestion de données de recherche (ou PGD, ou Data management plan, DMP)
- Confidentiel : il n’est connu que de vous, de vos collaborateurs, et (souvent) des institutions qui vous soutiennent ou vous financent.
- Il devrait être conçu dès le début du projet de recherche et il faudrait le mettre à jour au cours de la recherche.
- Il vous permet de vous poser les bonnes questions
  - méthodologiques, légales et éthiques
  - pertinentes à la collecte, à l’archivage et peut être à la diffusion vos données.
  - le plus tôt possible et le plus systématiquement possible.
- Et il vous permet d’expliciter le mieux possible : les rôles, les budgets, les limites, les processus, les étapes, les décisions, etc.
- Voir le Guide des bibliothèques sur le PGD.
- Voir plus loin des exemples de réponses pour l’Assistant PGD de Portage.

47.2.0.2 Peut-être

En déposant vos données de recherche selon ce PGD :
- en libre accès ou en diffusion restreinte (autorisations, embargos, etc.) ;
- en totalité ou en partie ;
- dans une plateforme choisie, car adaptée ;
- avec des descriptions et des métadonnées pertinentes et riches ;
- sécurisées (anonymisées, etc.) ;
- avec une accessibilité pérenne (utilisation d’identifiants pérennes, d’ontologies compréhensibles, de documentations précises, de formats ouverts, etc.).
OU en déposant les données quelque part ET en déposant un « document de métadonnées » (metadata paper) dans un dépôt de données (ex: Borealis).
- C’est une mise en forme finale du PGD.
- Il contient la description du jeu de données, plus ou moins détaillée.
- Aide au repérage des données.
ET/OU en rédigeant un article de données (data paper).

47.2.0.3 En travaillant en équipe :

Directeur de recherche, pairs, bibliothécaire disciplinaire, bibliothécaire GDR, bibliothécaires du traitement des métadonnées, archivistes, informaticiens, conseillers en éthique ou en droit d’auteur, …
En n’hésitant pas à solliciter l’aide spécifique de chacun.
En reconnaissant la contribution de chacun.

47.3 Grille des questions essentielles du PGD

Voir plus loin, des modèles de suggestion de réponses à l’Assistant PGD. Voir aussi le guide Bib/UdeM.

47.3.1 Quelques questions avancées

Distinguer :
- Données brutes : données issues d’une expérience, d’une enquête, d’un rassemblement inédit de documents, etc.
- Données construites, ou agrégée : constituée à partir de données brutes.
- Données personnelles : données liées à une personne qui peut être identifiée, directement ou indirectement.
- Données sensibles : information réglementée et protégée en raison de risques (naturels, national, personnels, communautaires, commercial, etc.).
- …
Stockage et sauvegarde
Préservation
Personne-contact du jeu de données ?
- Utiliser des identifiants pérennes pour chaque chercheur (ORCID par exemple).
- Lister les institutions d’attaches et les institutions participantes.
- Définir ses rôles (taxonomie CRediT).
Liste de tous les contributeurs de la recherche et leurs rôles ?
- Identifiants pérennes et institutions et rôles (taxonomie Credit).
Description avancées des participants de l’étude ?
Méthodologie, instruments/unités de mesure, protocoles, logiciels utilisés.
Organisation des différentes versions avec un nommage de fichiers avec date.
Structure logique de dossiers et de sous-dossiers.
Quels documents supplémentaires pourraient être ajoutés pour comprendre les données ? Sans avoir à vous demander ?
Avez-vous suffisamment anonymisé les données ?
Est-ce qu’il y a un exemplaire du formulaire de consentement ou du certificat d’éthique ? Où sont stockés les formulaires de consentement signés et avec quelles conditions d’accès et de pérennité ?
Est-ce que les données sont considérées comme sensibles ou ultra-sensible ?
Doivent-elles être anonymisées ou dépersonnalisées ?
Les documents d’archives sont généralement examinés par un archiviste pour des raisons de protection des renseignements personnels avant d’être mis à la disposition des chercheurs. Dans les cas où les informations seront collectées directement par le chercheur principal, vous devez éviter de divulguer toute information permettant l’identification d’une personne vivante comme son origine ethnique, ses croyances personnelles, son orientation personnelle, son état de santé, etc. sans permission ou pouvant nuire à la réputation des proches dans le cas d’une personne décédée. Pour d’autres conseils, voir la Matrice de risque lié aux données de recherche avec des êtres humains.
Est-ce que vous avez les droits de diffusion des données ?
Est-ce que les valeurs saisies de vos données sont conformes (même formattage, même unité, etc.) ?
Est-ce que vous avez normalisé le titre du jeu de données ?
- Donner un nom complet et descriptif à votre projet (qui, quoi, où, comment, pourquoi).
- Donner un nom court (ou un acronyme) qui peut servir pour nommer les fichiers.
- Par exemple, il est recommandé d’ajouter par exemple [2021, Canada] si aucune mention de portée temporelle ou géographique dans votre titre.
- Il est aussi recommandé d’ajouter un 2e titre en français ou en anglais.
- Pas trop long (15 mots / 175 caractères maximum ?) sinon : risque d’être coupé/ tronqué dans un catalogue ou un moteur de recherche.
Utilisez vous des identifiants pérennes ?
- DOI : pour les données et la documentation liée. Bon pour citer/ être cité. Versionnage possible.
- Handle : pour les données. Métadonnées riches possibles.
- ORCID : pour les contributeurs de la recherche.
Utilisez-vous un vocabulaire contrôlé ?
- MeSH en santé par exemple.
- Éléments Wikidata. Exemple : la sélection de 65000 concepts, classés en 5 niveaux, de OpenAlex.
Pour résumer : plus généralement, avez-vous appliqué les principes FAIR ? Pour que d’autres puissent trouver vos données, les identifier, les interpréter et les réutiliser.
- Au Canada, on insiste plus pour des données FAIR. C’est à dire pas forcément complètement ouverte à tous (il faut demander l’autorisation pour y accéder).
- Il semble qu’en Europe, ils ont plus un principe d’open data, c’est à dire a priori ouvert sans restriction.
Un fichier Readme
- Pour les humains.
- Fichier de texte brut qui décrit sommairement vos données de recherche, leurs types, comment elles ont été organisées, si elles ont des restrictions, etc.
- Permet de comprendre rapidement vos données pour faciliter leur réutilisation.
- Quelques modèles : UCornell et UQTR. Quelques guides : UNIGE et Zenodo.
Un fichier de dictionnaire de données :
- Pour les humains et les machines.
- Noms des variables normalisés
- Compréhensif et court, pas trop abrégé, sans accents ni caractère spécial, pas de chiffres au début, remplacer les espaces par des _ ou des combinaisons majusulesMinuscules.
- Définitions précises des variables : bien décrire vos données. N’économisez pas vos mots.
- Types de données ou : textuelles (balisées ou non), tabulaires, images, code informatique, etc.
  - Données tabulaires : Types d’information codés dans les variables : numérique, date, texte, etc.
- Types d’acquisition : recueillies et crées par le chercheur, liées, acquises, enregistrées, etc.
- Explication de l’analyse et de la codification des données réalisées (y compris les fichiers de syntaxe)
- Type de format : format propriétaire ou format ouvert ? format conforme aux normes de l’industrie/ la discipline de recherche ?
  - Ces formats permettront-ils la réutilisation des données, le partage et l’accès à long terme aux données?
  - Est-ce que des conversions de format sont prévues? Avec un script automatique? Dans un dossier dédié?
  - Exemples : OSF, ULouvain
Des fichier(s) de données :
- Pour les machines
  - Format normalisé des données.
  - Données disponibles dans un format ouvert ? Exemple : au format *.csv

47.4 Quelques suggestions de dépôts

Données actives : Calcul Québec
Dépôt officiel de l’UdeM : Borealis (Dataverse)
- NB: pas de données sensibles (ni ultra-sensibles!) dans Borealis.
Répertoire de dépôts disciplinaires (peut améliorer la visibilité) : re3data
Autres dépôts universitaires reconnus :
- Open Science Framework (OSF):
- Zenodo
Dépôts non-institutionnel et/ou pour le grand public :
- Archive.org
- Wikimedia Commons pour les données, de pairs avec Wikidata pour les métadonnées (Exemple : 100 ans de données météorologiques du Canada)
- Software Heritage : entrepôt d’archive logicielle ouvert destiné à la collecte et à la préservation du code source des logiciel soutenu par l’UNESCO.

47.5 Pour aller plus loin

Contactez votre bibliothécaire disciplinaire pour du conseil ou de la formation sur les données de recherche.
- Pour du soutien à la rédaction du PGD.
- Pour du soutien à l’organisation de vos données (conventions, ontologies, nommages, etc.).
- Pour identifier les bonnes ressources à l’université selon vos besoins.
DMP OPIDoR est un ensemble d’outils du CNRS en France pour guider la rédaction de votre PGD.
FAIR GPT : un outil expérimental basé sur l’IAg pour suggérer des formulations ou des pratiques FAIR ou pour polir un PGD existant : une présentation et un preprint détaillant cette extension à ChatGPT.
S’inspirer de PGD existants :
- PGD MASA (consortium Mémoires des archéologues et des sites archéologiques). Plusieurs formulations de ce PGD ont été utilisées dans les exemples ci-dessous.

47.6 Modèles de réponses suggérées pour l’Assistant PGD (adapté pour l’histoire)

L’assistant PGD est un outil pour aider les chercheurs à rédiger leur plan de gestion de données de recherche. Cette section est un accompagnement à cet outil pour le domaine de l’histoire. Des exemples fictifs de modèles de réponses et de propositions de formulation sont présentés ci-dessous en couleur pourpre. Vous pouvez copier-coller les suggestions de questions et de réponses dans l’Assistant PGD ou dans votre propre document.

Aller à Assistant PGD > créez-vous un compte. Puis Créer des plans > Créer un nouveau plan.
- Quel projet de recherche planifiez-vous? Indiquez le titre de votre recherche
- Indiquer l’organisme de recherche principal : Sélectionner « Université de Montréal »
- Quel modèle de PGD souhaitez-vous utiliser? (au choix)
  - *Modèle Université de Montréal* (modèle simple et généraliste)
  - Modèle de l’Alliance pour la recherche en histoire et en humanités (modèle détaillé avec plusieurs dimensions pertinentes pour l’histoire, anciennement nommé Modèle Portage)

47.6.1 Onglet : Détails du projet

Ignorer « projet simulé aux fins d’essai, d’exercice ou d’enseignement »
Résumé du projet
- Décrivez brièvement le contexte et les objectifs du projet : son domaine, sa problématique, et ses objectifs principaux. Indiquez les questions de recherche auxquelles le projet vise à répondre. Expliquez en quoi le projet est innovant ou pertinent.
- Décrire brièvement les types de données collectées ou générées : données quantitatives, qualitatives, expérimentales, etc. Textuelles, audiovisuelles, etc.
- Indiquez les principales étapes du projet et leur lien avec les données : collecte, analyse, publication. Mentionnez la durée prévue de la gestion des données après la fin du projet.
- Citez les institutions ou organismes impliqués et leur rôle. Mentionnez la source de financement, si applicable.
- Indiquez quels sont les principaux enjeux concernant les données. Résumez brièvement la stratégie pour la gestion des données : stockage, documentation, partage et préservation à long terme. Indiquez si les données seront ouvertes, et sous quelles conditions.
- Exemple fictif : Ce projet explore les pratiques de citation dans le jeu de guerre, le kriegsspiele et le wargame du XIXe siècle au XXIe siècle. En combinant des enquêtes qualitatives et quantitatives, il vise à identifier les intentions, les pratiques et les conséquences de l’attribution sous toutes ses formes pour repérer des tendances. Outre une collection numérisées d’essais et de jeux, les données incluront des questionnaires remplis par 50auteurs de jeuxet des transcriptions d’entretiens semi-directifs d’auteurs de jeux de guerre contemporains. Elles seront stockées en formats textuels, tabulés et audiovisuels. La collecte et le traitement des données se déroulera de janvier à juin 2025, suivie d’une phase d’analyse jusqu’en décembre 2025. Les données seront conservées pour réutilisation jusqu’en 2035. La confidentialité des données est une dimension importante du projet. Le projet est financé par l’Agence Nationale de la Recherche (ANR) et mené en partenariat avec l’Université Côte d’Azur et le programme Game in Lab spécialisée dans la recherche par sur le jeu ludique.
Domaine de recherche : Sélectionner « Histoire et archéologie »
Début du projet / Fin de projet : dates au format AAAA-MM-JJ.
Identifier : identifiant de votre projet, donné par l’organisme de financement ou votre institution
Organisme subventionnaire : Nom de l’organisme
Statut de financement : Prévu, Financé ou Refusé.
Numéro de subvention/url : URL vers la bourse, ou numéro identifiant de la bourse ou de la subvention.

47.6.2 Onglet : Contributeurs > Ajouter un contributeur

ORCID : il est recommandé de vous créer un identifiant ORCID.
Rôles : Habituellement, on s’attend à ce que le chercheur principal sélectionne au moins Gestionnaire de données et Chercheur principal. Si vous gérez le financement, l’embauche, etc. cochez aussi Administrateur de projet. Si vous avez d’autres rôles (diffusion des données, révision, méthodologie, préservation, etc.) : cochez Autres.
Les chercheurs associés pourraient avoir les rôles Gestionnaire de données et Autres.
Il est toujours possible de revenir à la liste des contributeurs pour modifier/supprimer un contributeur.
Il est possible de rajouter des éléments à cette section une fois le PGD exporté au format Word. Par exemple, en détaillant les rôles selon la (taxonomie CRediT).

47.6.3 Onglet : Rédiger un plan > Collecte de données :

47.6.3.0.1 Quels types de données allez-vous recueillir, créer, lier, acquérir ou enregistrer?

Source des données :
- Les données de recherche proviennent de [nom de l’institution ou autre]. Expliquer sommairement en quoi consiste ce fond.
- Les données principales du projet proviennent de la numérisation ou le téléchargement de plus de 300 documents imprimés ainsi que d’environ 100 lettres manuscrites.
- La méthode employée pour la création d’une partie des données consiste en une série d’entrevues qualitatives et des groupes de discussion. Ces entrevues sont conduites et enregistrées par le chercheur principal et les chercheurs associés.
PUIS
- Ces données sont crées par le chercheur principal et les chercheurs associés.
- Le processus de numérisation et de téléchargement est dirigé par le chercheur principal.
Données brutes
- Une partie des des données brutes collectées sont des livres imprimés numérisés en PDF, associé à un fichier de retranscription par reconnaissance optique de caractère avec une chaîne de traitement en Python utilisant Tesseract (en TXT). Ce sont aussi des lettres manuscrites numérisés (en PDF) associé à un fichier de retranscription par reconnaissance de l’écriture manuscrite utilisant un compte Transkribus (en TXT).
- Une partie des données brutes collectées sont des entrevues enregistrées par un double système d’enregistrement audio : un enregistreur avec microphone professionnel et un téléphone cellulaire. Les fichiers audio (en WAV et en MP3) sont retranscrits en texte électronique (en SRT) avec horodatage avec deux systèmes de retranscription : le système Transcrire de Microsoft Office et une chaîne de traitement avec Whisper AI. Une comparaison et une sélection des meilleures retranscriptions est faite.
Données traitées
- Par la suite, le chercheur principal enrichit les données brutes en développant une couche analytique supplémentaire, permettant d’approfondir l’analyse et d’extraire des tendances significatives sous la forme de données tabulées (en CSV).
- Par la suite, c’est le chercheur principal et les chercheurs associés qui, après des réunions documentées de l’équipe de recherche, crééent une couche analytique additionnelle au matériel existant sous la forme de notes de recherche balisées et indexées (en MarkDown).
- Une partie des données traitées consiste en une extraction de série d’illustrations de couverture, numérisées en images (en PNG). Une autre partie des données traitées consiste en une série de captures de textes imprimés (des paragraphes, des épigraphes et des sections bibliographiques), numérisées en images (en PNG) et retranscrits avec reconnaissance optique de caractère dans un fichier de retranscription (en TXT).
- Certaines données traitées liées à la pratique de citation sont colligées dans plusieurs fichiers tabulés (en CSV), manipulés dans un tableur LibreOffice Calc.
Données annexes
- Une importante partie des données annexes consiste en une revue de littérature collectée, organisée et annotée dans une bibliothèque Zotero.
- Un historique du projet (research log) accompagne les données produites. Il documente dans le détail et il date de manière consécutive toutes les étapes, les rencontres, les décisions, etc. depuis la création, jusqu’à l’archivage final et la fermeture du projet (en MarkDown).

47.6.3.0.2 Dans quels formats de fichier vos données seront-elles recueillies? Ces formats permettront-ils la réutilisation des données, le partage et l’accès à long terme aux données?

Les documents numérisés sont au format PDF ou PDF/A.
Les retranscriptions sont au format texte (TXT ou MarkDown).
Les données tabulées sont au format ODS de LibreOffice Calc. Pour garantir la pérennité, la réutilisation, le partage et l’accès, elles sont exportées régulièrement au format CSV.
Les notes de recherche sont au format texte, avec un balisage léger MarkDown utilisant la variante Markdown d’Obsidian.md.
La bibliothèque de références bibliographiques dans Zotero est au format sqlite. Pour garantir la pérennité, la réutilisation, le partage et l’accès, elles sont exportées régulièrement au format Zotero RDF (avec ontologie et annotations) et au format BibTeX.
L’outil de nettoyage de données OpenRefine est utilisé pour harmoniser et corriger si besoin les intitulés et les valeurs des champs des données tabulées. Ce dispositif de contrôle de qualité des données mis en place à l’échelle de tout le projet (ou d’un ou de plusieurs produits de la recherche) permet d’assurer la qualité scientifique des données.

47.6.3.0.3 Quelles conventions et procédures utiliserez-vous pour structurer et nommer vos fichiers et en contrôler les versions afin de vous aider, ainsi que les utilisateurs potentiels, à mieux comprendre la façon dont vos données sont organisées?

Tous les fichiers du projet de recherche sont rassemblés dans un dossier maître sur l’ordinateur du chercheur principal. Chaque dossier et sous-dossier est rédigé sans accent, ni espace ni caractère problématique.
Une convention d’écriture des noms de fichiers et de dossier est utilisée.
- Chaque nom de fichier commence par une description ou un acronyme synthétisant son contenu, suivi de la date de création et la version.
- L’acronyme du projet (ou nom court) et les initiales des chercheurs sont systématiquement utilisés dans les noms des fichiers et des dossiers.
- Les noms de fichiers sont rédigés sans accent, ni espace ni caractère problématique.
- Les fichiers qui sont modifiés contiennent la date de modification à la fin du nom du fichier.
- Les fichiers désuets sont conservés dans un sous-dossier _archive présent dans tous les sous-dossiers où il est nécessaire. Aucun fichier n’est supprimé du projet de recherche.
  - Tous les fichiers de données textuelles (texte, Markdown, CSV) sont aussi synchronisés avec git.
Un fichier README, déposé à la racine du dossier maître, contient les métadonnées du projet ; l’explication de l’organisation du projet de recherche en sous-dossier ; les conventions d’écriture ; les règles d’exportation régulières ; le dictionnaire des données ;
Les notes liées contiennent des métadonnées au format YAML en entête pour une meilleure réutilisation (principalement pour produire une pseudo-base de données dans le système de notes avec dataview).

47.6.4 Onglet : Rédiger un plan > Documentation et métadonnées :

47.6.4.0.1 Quels documents seront nécessaires pour que les données soient lues et interprétées correctement dans le futur?

Ce plan de données de recherche sera joint au projet de recherche. Une version 1.0 sera comparée à la version finale quand le projet sera terminé. Les deux plans de données de recherche sont diffusés en ligne dans un but pédagogique et de reproductibilité.
Un fichier README contiendra les métadonnées bilingues français et anglais du projet : le titre du jeu de données ; le titre normalisé ; le DOI du projet de recherche ; les rôles des chercheurs principaux, avec leurs affiliations et leurs identifiants pérennes ; la sommaire description des données ; les objectifs du projet de recherche, dont les hypothèses formulées, les méthodes de collecte des données et les méthodes de recherche utilisées ; les conditions de réutilisation des données
Optionnel : des informations spécifiques aux données ; un aperçu des données et des fichiers inclus ; des liens vers les publications ou diffusion des résultats de la recherche
Un fichier de dictionnaire des données contiendra les ontologies des données traitées.
- Les noms des variables, leurs types et des explications sur leurs codages sont décrits.
- Un glossaire de définitions spécifiques au projet.
- Des listes d’autorité de personnes, d’institutions et de lieux.
- Une liste contrôlée de mots-clés spécifiques au projet (pour la bibliothèque Zotero, pour les données tabulées et pour le système de notes liées).

47.6.4.0.2 Comment vous assurerez-vous de documenter le projet de façon systématique tout au long du processus?

Un carnet de recherche sous la forme d’un journal de bord journalier est rédigé chaque jour de recherche. Il documente les protocoles de recherche ; les décisions prises ; les hypothèses et les questions soulevées et les conditions pour y répondre; les hypothèses et les questions écartées ; ainsi que les résultats obtenus.
Une partie de ces informations d’avancement est bloguée régulièrement sur le blogue du projet de recherche dans un but de vulgarisation, de pédagogie et de documentation d’avancement du projet pour les chercheurs intéressés (collaborateurs, sponsors, etc.).
Le fichierREADMEest documenté selon les modifications faites au projet.
Un système de tags spécifiques dans la bibliothéque de références et dans le système de notes liées permet de rajouter une couche d’organisation pour repérer rapidement toutes les questions méthodologiques ou thématiques par rapport à un point précis.
Le questionnaire et les lettres de consentement informé sont conservés.

47.6.4.0.3 Si vous utilisez une norme de métadonnées ou des outils pour documenter et décrire vos données, veuillez les énumérer ici.

Les listes d’autorité et les mots-clés seront enrichies d’identifiants Wikidata pour permettre l’enrichissement des données traitées, pour lier les données à d’autres données, et pour une meilleure robustesse sémantique.
Les rôles des contributeurs sont codés selon la taxonomie CRediT.
Les chercheurs collaborant au projet de recherche sont indexés avec leurs identifiants ORCID.
Dans la mesure du possible, les institutions mentionnées utilisent les identifiants ROR.

47.6.5 Onglet : Rédiger un plan > Stockage et sauvegarde :

47.6.5.0.1 Quels sont les besoins de stockage anticipés pour votre projet en matière d’espace (en mégaoctets, gigaoctets, téraoctets, etc.) et de durée de stockage?

Le volume de stockage représente environ 2 Go.
Le stockage actif du projet de recherche sur l’ordinateur du chercheur principal, de ses comptes infonuagiques et de ses clés USB devrait durer 2 ans.
Une sélection des données de recherche pour une diffusion dans un dépôt de données de recherche nécessitera un stockage d’une durée indéfinie de 1 Go environ (ou de 2 Go en cas de stockage de l’intégralité des données).

47.6.5.0.2 Comment vos données seront-elles stockées et sauvegardées pendant votre projet de recherche et à quel endroit le seront-elles?

Le stockage principal se trouve sur le disque dur de l’ordinateur du chercheur principal. L’ordinateur est protégé par mot de passe.
Les stockages de sauvegarde se trouvent sur des serveurs distants qui ne sont que des dépôts passifs de données. Les serveurs de stockage sont protégés par mot de passe.
- La totalité du projet est archivée en miroir avec l’application de synchronisation Windows sur OneDrive de l’UdeM.
- Les données textuelles sont archivées avec git sur GitHub.
- Sur l’ordinateur du chercheur principal, tous les fichiers du projet de recherche sont stockés dans un seul dossier maître. Chaque semaine, une notification prévient le chercheur principal de créer une archive ZIP de ce dossier maître et de la déposer dans le service OneDrive UdeM du chercheur principal. Ce service est protégé par un mot de passe.
- Avant chaque rencontre avec la directrice de recherche, la totalité du projet est copié sur une clé USB qui est remit à la directrice. La directrice remet alors la clé USB déposée lors de la rencontre précédente. Ce système à deux clés USB garantit une sauvegarde non-nuagique et un contrat de confiance.
Les données non confidentielles seront stockées dans un dossier nommé “Données A” sur le service de stockage en nuage OneDrive, intégré au réseau de l’Université de Montréal et fonctionnant sous Windows. Ces données seront accessibles et partagées avec les auxiliaires de recherche via ce dossier.
Les données nécessitant une anonymisation seront conservées dans un dossier distinct nommé ” Données B”, situé sur l’ordinateur personnel de la chercheuse. Ce dossier est protégé par le mot de passe de l’ordinateur, fonctionnant également sous Windows. Lorsque ces données doivent être partagées pour des analyses ou des transcriptions, elles seront mises à disposition via OneDrive, en utilisant une authentification par mot de passe et une connexion individualisée pour chaque auxiliaire de recherche.

47.6.5.0.3 Comment l’équipe de recherche et d’autres collaborateurs pourront-ils accéder aux données, modifier celles-ci ou en ajouter de nouvelles tout au long du projet?

Le chercheur principal accède et modifie les données directement sur son ordinateur personnel.
Lorsqu’il souhaite recevoir la révision ou la rétroaction ou la collaboration d’un autre chercheur, il dépose une copie des données dans un dossier partagé et protégé par mot de passe de OneDrive. Il intègre ensuite manuellement les modifications choisies dans son projet principal.

47.6.6 Onglet : Rédiger un plan > Préservation :

47.6.6.0.1 Où déposerez-vous vos données en vue de l’accès et de la préservation à long terme à la fin de votre projet de recherche?

Les données de recherche de ce projet on une valeur patrimoniale et/ou une valeur pour une ou plusieurs communautés de recherche et/ou encore pour l’intérêt public.
Une sélection des données de recherche sera déposé dans Dataverse UdeM.
Les formulaires de consentement signés seront conservées par la chercheuse indéfiniment par la chercheuse principale, sous format papier, dans un espace sécurisé situé dans son bureau à l’Université de Montréal (UdeM). Ces documents ne feront l’objet d’aucun dépôt public, assurant ainsi la confidentialité des données qu’ils contiennent. À une date ultérieure, conformément aux politiques institutionnelles et aux règles de conservation en vigueur, les formulaires seront transférés aux Archives de l’Université de Montréal pour un archivage approprié.

47.6.6.0.2 Indiquez comment vous assurerez que vos données sont prêtes pour la conservation. À prendre en considération: formats de fichier appropriés pour la conservation mais qui préservent l’intégrité des données; anonymisation et dépersonnalisation des fichiers, y compris les fichiers de documentation.

Les données sont partagées en format texte. Plusieurs balisages sont choisis en fonctions des type de données :
- csv pour les données tabulées ;
- json pour les données hiérarchiques ;
- txt ou markdown pour les textes rédigés ;
- yaml pour certaines métadonnées.
Les graphes produits sont convertis au format svg et png pour une préservation sur le long terme.

47.6.7 Onglet : Rédiger un plan > Partage et réutilisation :

47.6.7.0.1 Quelles données partagerez-vous et sous quelle forme? (p. ex. données brutes, traitées, analysées, définitives)?

Les données de recherche seront partagées en intégralité dans le dépôt Borealis de l’UdeM avec la licence Creative Commons BY-SA-NC 4.0.
Seule une partie des données de recherche sera partagée dans le dépôt Borealis de l’UdeM avec la licence Creative Commons BY-SA-NC 4.0. Cette partie correspond aux données traitées (nettoyées, anonymisées et indexées par l’équipe de recherche) et à toute la documentation qui accompagne le projet de recherche (dictionnaire des données, fichier README, etc.).
Ce plan de gestion des données de recherche sera partagé avec la licence Creative Commons BY-SA-NC 4.0 pour que d’autres chercheurs en histoire puissent s’en inspirer.
Ce plan de gestion des données de recherche ne sera pas partagé.

47.6.7.0.2 Avez-vous examiné quel type de licence d’utilisation inclure avec vos données?

Les données de recherche seront partagées avec la licence Creative Commons BY-SA-NC 4.0.
Les données de recherche ne seront pas partagées.

47.6.7.0.3 Quelles mesures seront prises pour faire connaître l’existence de vos données au milieu de la recherche?

Nous créérons des liens vers les données de recherche à partir de toutes les présentations ou publications qui seront produites de cette recherche.
Un DOI sera associé à ce jeu de données, assurant un identifiant permanent et persistant vers le dépôt Dataverse UdeM.

47.6.8 Onglet : Rédiger un plan > Responsabilités et ressources :

47.6.8.0.1 Identifiez qui sera responsable de la gestion des données de ce projet pendant et après le projet ainsi que les principales tâches associées à ces responsabilités.

Le chercheur principal est responsable de la gestion des données de recherche pendant toute la durée du projet. Les décisions d’accès, de partage et d’utilisation seront faites collaborativement avec l’équipe de recherche.
Une fois une projet terminé, le chercheur principal et son équipe décideront collaborativement quelles données seront archivées et quelles données seront détruites. Les décisions seront prises en accord avec les obligations des organismes de subventions, des comités d’éthique et des sujets de recherche.

47.6.8.0.2 De quelle façon les responsabilités relatives à la gestion des données seront-elles gérées si des changements importants surviennent au sein du personnel qui supervise les données du projet, y compris un changement de chercheur principal?

Nous ne pensons pas qu’il y aura de changements importants. Il y a plusieurs chercheurs dans l’équipe qui savent comment sont gérées les données selon ce plan de gestion des données de recherche. Si nécessaire, nous demanderons de l’aide et du conseil auprès d’experts de notre institution de recherche.

47.6.8.0.3 De quelles ressources aurez-vous besoin pour mettre en œuvre votre plan de gestion des données? À combien évaluez-vous le coût total de la gestion des données?

Ce projet devrait mettre en oeuvre des ressources et des compétences déjà disponibles pour tous les membres de l’équipe et aucun coût supplémentaire n’est prévu tout au long de sa durée. Le chercheur principal partagera toutes les données nécessaires avec les membres de son équipe. L’équipe prévoit d’utiliser le service Dataverse UdeM pour le dépôt à long terme, sans frais supplémentaires.

47.6.8.1 Onglet : Rédiger un plan > Conformité aux lois et à l’éthique :

47.6.8.1.1 Si votre projet comprend des données sensibles, comment vous assurerez-vous qu’il est géré de manière sécuritaire et que les données sont accessibles uniquement aux membres approuvés du projet?

Le projet ne contient pas de données sensibles.
Le projet implique la collecte de données sensibles concernant des personnes vivantes, incluant des informations sur la santé, les finances, les origines ethniques et raciales, les opinions politiques, la vie sexuelle ou l’orientation sexuelle, ainsi que les croyances religieuses ou philosophiques. Les méthodes de collecte et de traitement de ces données ont été approuvées par le comité d’éthique de l’Université de Montréal (UdeM).
Toutes les données sensibles sont stockées de manière sécurisée sur les serveurs protégés du réseau de l’UdeM, répondant aux exigences spécifiques liées à ce type d’information. L’accès aux données brutes, non anonymisées, est strictement réservé au chercheur principal. Les auxiliaires de recherche peuvent accéder aux données anonymisées via OneDrive, en utilisant un lien protégé par mot de passe. Ces fichiers peuvent être téléchargés uniquement sur des ordinateurs personnels sécurisés par mot de passe.

47.6.8.1.2 Le cas échéant, quelles stratégies adopterez-vous pour traiter les utilisations secondaires des données sensibles?

Nous ne prévoyons pas de partager des données sensibles identifiables pour une utilisation secondaire.
Quand des données sensibles sont mentionnées dans le projet, alors un tag #confidentiel est ajouté à l’emplacement de chaque information. Cela concerne principalement les retranscriptions d’entrevues et les données traitées extraites de celles-ci.

47.6.8.1.3 Comment traiterez-vous les questions d’ordre juridique, éthique et de propriété intellectuelle?

Selon les règles du comité d’éthique, le chercheur principal collecte et archive tous les formulaires de consentement.
Le statut de droits d’auteur des documents primaires est indiqué dans les métadonnées de ceux-ci. Les documents primaires qui ne permettent pas une rediffusion libre ne sont pas diffusés avec les données de recherche.

47.6.9 Onglet : Résultats de la recherche

Verser les produits de votre recherche (articles, chapitres, data papers, recherche-création, etc.).

47.6.10 Onglet : Partager

Si besoin, choisir un type de visibilité («privé» par défaut).

47.6.11 Onglet : Télécharger

Télécharger le PGD au format .docx
- Optionnel : Télécharger le PGD au format .txt pour archive car c’est un format ouvert non-propriétaire.
Si besoin, modifier le PGD au format .docx. L’exporter au format PDF/A pour archives.