7  Recherche documentaire par mot-clé

7.1 Principes de base

  • La recherche de documents par mots-clés est souvent considérée comme la « voie royale » pour trouver des documents.
    • C’est partiellement vrai car nous avons vu qu’il est déjà possible de trouver de la documentation pertinente avec des stratégies alternatives (cotes de classement, experts, liens de citation, etc.).
    • Cependant, grâce aux outils informatiques, la recherche avec des mots-clés peut accélérer considérablement le repérage de résultats pertinents.
  • Les mots-clés sont :
    • collectés avec les synonymes dans des plans de concepts ;
    • combinés entre eux avec des opérateurs ;
    • pour construire des expressions de recherche :
      • qui sont appliquées sur des champs choisis
      • et qui sont adaptées et raffinées selon les fonctionalités des outils de recherche.
  • Bonne pratique : Commencer avec des essais-erreurs de mots-clés et ensuite terminer avec une autre stratégie :
    • Trier, filtrer, raffiner les résultats.
    • Parcourir les résultats avec le regard et son propre jugement (confortable quand il y a moins de 100 résultats).

7.2 Utiliser un minimum de mots

  • Plus vous saisissez de mots dans une case de recherche, moins vous aurez de résultats.
    • C’est un peu contre-intuitif, non ? En effet, quand un humain pose une question à un autre humain, plus il formule sa demande avec beaucoup d’informations, plus l’autre humain va être capable de comprendre la question et d’y répondre de manière adaptée.
    • Mais quand on parle à une machine, c’est presque l’inverse de parler à un humain. Plus on ajoute des choses, moins la machine va nous renvoyer de résultats.
    • Ainsi, la plupart des moteurs de recherche vont renvoyer une liste de résultats où chaque résultat doit contenir tous les mots exigés.
      • Chaque mot-clé ajouté agit comme un filtre qui réduit le nombre de résultats. Car chaque mot exigé doit se retrouver dans chacun des résultats.
  • Bonnes pratiques découlant de ce principe : Utiliser le moins de mots-clés possibles pour lancer une requête.
    • Tester d’abord un outil de recherche avec UN (1) mot-clé
      • ou une expression courte la plus importante de votre sujet
      • qui doit apparaître dans chaque résultat
      • S’il y a des résultats intéressants, continuez : consultez la liste de résultats ou ajoutez un nouveau mot-clé pour réduire la liste de résultats.
      • S’il n’y a pas de résultats intéressants :
        • changez de mot-clé avec un synonyme 1
        • ou changez de base de données.
  • Extraire et grouper les principaux mots-clés
    • Extraire tous les principaux mots-clés qui signifient un thème, un concept, une idée.
    • Grouper ces mots en colonnes : vérifier si certains mots-clés peuvent être regroupés sous un seul thème (ça peut être des mots plus spécifiques, ou des termes proches, ou des mots opposés, etc. mais qui au final parlent presque de la même chose). Plutôt que d’exiger les deux, juger si on peut les regrouper dans une même thématique pour demander l’un ou l’autre.
    • Essayer d’avoir entre 2 et 4 groupes de mots maximum. En effet, chaque fois que vous rajoutez un groupe de mots, vous pouvez potentiellement diviser par 100 ou 1000 le nombre de résultats. Ça descend très vite.
    • Hiérarchiser ces colonnes ou groupements de mots, du plus important au moins important. Par exemple, on peut numéroter les groupes/colonnes ci-dessus.
  • Éliminer les mots vides (stopwords) :
    • prépositions, articles, conjonctions, etc.
      • Exemples : le, la, les, un, une, des, car, contre, pourquoi, dans, etc.
    • TRÈS IMPORTANT : Éliminer les termes non thématiques qui traduisent des dynamiques ou des relations.
      • En effet, contre-intuitivement on pourrait penser que ce sont des mots intéressants mais il n’en est rien. Ce sont des mots vides qui bloquent le repérage de documents pertinents. Ils sont seulement utiles POUR VOTRE REGARD, quand vous parcourez une liste de résultats avec vos yeux et votre jugement. C’est une des principales raisons de blocage de résultats. Tenter de les éliminer le plus possible. Dans le doute sur un mot, ne pas l’utiliser.
      • Exemples de mots vides communs : effets, croissance, augmentation, réduction, impact, facteur, taux, conséquence, contrecoup, effet, relation, rôle, influence, portée, condition, négatif, positif, résultat, etc.

7.3 Recherche de synonymes

  • Pourquoi ? Les mots que vous avez extrait de votre sujet sont surement très intéressant MAIS :

    • Ce ne sont peut-être pas les mots employés par les chercheurs dans leurs documents.
    • Il est possible que le terme ait changé dans le temps ou qu’un autre terme lui soit préféré dans d’autres disciplines .
      • Exemple : le terme gamification est apparu en 2008 mais l’utilisation de mécaniques de jeu pour motiver ou améliorer des expériences existait depuis longtemps sous une multitude de termes.
      • Exemple : immersion dans les jeux vidéo et transportation dans la littérature.
    • Il y a peut être plusieurs termes pour parler de la même chose.
    • Le terme pourrait n’exister qu’en anglais ou qu’en français, ou bien il existerait plusieurs traduction du terme dans une autre langue (ex: game et play en anglais pour jeu en français).
  • Comment ?

    • Pour chaque mot thématique extrait de votre sujet de recherche, on va lister le plus possible de termes « synonymes ». J’entends par synonymes non seulement des termes qui veulent dire exactement la même chose mais aussi tous les mots qui « tournent » autour du même thème :
      • Des mots plus précis;
      • Des mots plus larges, plus généraux;
      • Des mots opposés;
      • Des termes proches, sur des sujets connexes en lien avec le sujet principal;
      • Des mots en anglais.
    • C’est un gros travail, mais c’est un travail essentiel. Il est possible que vous repériez encore des nouveaux synonymes dans quelques mois et que cela étende votre sujet de recherche vers de nouveaux horizons.

7.3.1 Où trouver des synonymes ?

  • Ma préférence : dans les résultats de recherche des requêtes que vous avez déjà lancé.
    • Principalement, dans les champs Titre, Résumé et Mots-clés (ou Sujets).
    • Dans les thésaurus de certaines bases de données (les mots des champs Sujets sont souvent issus d’un thésaurus. Notez qu’un des objectifs d’un thésaurus est de soutenir, voire de remplacer, le travail sur les synonymes puisque celui-ci est fait par la base de données. Ce travail est plus ou moins bien fait selon la base de données.
  • Dans des dictionnaires de synonymes ou de langue, ou des thésaurus documentaires.
  • Dans les bibliographies et les tables des matières de documents pertinents.
  • En lançant des commandes dans des modèles de langue (LLM) comme ChatGPT.
  • Dans les articles d’encyclopédies (dont Wikipédia). Parfois, vous trouverez un index des thèmes de l’encyclopédie avec des renvois. C’est-à-dire que plusieurs termes (synonymes) peuvent renvoyer à un terme commun.
  • Dans ce répertoire de recension de mots-clés pour des sujets courants en dans le domaine de la santé (exemple).
  • Dans votre cerveau.

7.4 Combiner les mots avec des opérateurs logiques

7.5 Rédiger le tout dans une expression de recherche

  • C’est une combinaison de plusieurs mots-clés et d’opérateurs logiques.
  • Certains outils sont très perfectionnés et permettent des expressions de recherche très avancées. À l’inverse, certains outils sont rudimentaires : une expression de recherche avancée (même si elle est exacte et valide formellement), va engendrer une incompréhension de la machine et des résultats non pertinents.
  • Il est possible de rédiger son expression de recherche dans une seule case, mais avec certains outils il est aussi souvent possible de la décomposer en plusieurs lignes. Chaque ligne correspond à un thème de recherche pour lequel on indique plusieurs synonymes séparés par des OR. Chaque ligne est ensuite combinée avec la ligne du dessous avec un AND ou un NOT. Souvent la case de chaque ligne constitue une parenthèse invisible.

7.6 Adapter votre recherche à l’outil interrogé

  • Un être humain doit savoir parler à un système informatique (via des mots-clés et des opérateurs) pour formuler des requêtes et recevoir des résultats adaptés à son besoin d’information.
    • Notez aussi qu’il va falloir adapter votre grammaire aux systèmes informatiques que vous interrogez.
      • En effet, certains systèmes informatiques sont très performants et ils comprennent une grammaire de haut niveau, c’est-à-dire avec un grand nombre de mots-clés et d’opérateurs logiques différents.
      • D’autres systèmes informatiques sont très rudimentaires, il va donc falloir réduire votre niveau de langage et « leur parler plus simplement », c’est à dire avec peu de mots-clés et peu d’opérateurs.
    • Enfin, notez qu’il est possible que des opérateurs soient exprimés différemment selon les systèmes informatiques. En effet, même s’il existe une grammaire commune, il peut y avoir des variantes de temps en temps. Donc n’hésitez pas à consulter les guides et les aides de ces systèmes informatiques pour améliorer vos résultats.

7.6.1 Tous les outils ne se valent pas

  • Certains outils maintiennent des bases de données de grande qualité :
    • extrêmement bien structurées,
    • avec du personnel qualifié qui améliore chaque enregistrement avec des mots-clés thématiques issus d’un thésaurus ou d’autres renseignements de haute valeur ajoutée (type de méthode utilisée, type de publication, etc.)
    • avec un moteur de recherche capable de comprendre des requêtes complexes,
    • avec une sélection rigoureuse des chaque source indexée, etc.
  • À l’opposé, d’autres outils ont un moteur de recherche extrêmement sommaire.
  • Il va falloir adapter ses requêtes en fonction du type de moteur de recherche.
    • Exemple : peut-on utiliser des troncatures dans des guillemets ? Il est tentant de lancer une recherche avec jeu``*`` de société mais toutes les bases de données ne sont pas capable d’interpréter correctement cette syntaxe. Si cela ne fonctionne pas, il faut lancer la recherche avec jeu de société OR jeu de société ou bien plus simplement (jeu OR jeux) société
  • Particularités de chaque type d’outils.

7.7 Essai-erreur

  • Avant les années 80, les bases de données faisaient payer chaque requête de recherche soumise. Ce n’est plus le cas aujourd’hui (sauf dans quelques rares domaines), donc n’hésitez pas à lancer des recherches, revenir en arrière, reformuler, recommencer, tout recommencer, etc.
  • Commencez par un seul mot pour « tester » la base de données. Puis, si c’est concluant, poursuivez et ajoutez progressivement des mots-clés.
  • Ne faites pas reposer toute votre recherche sur les mots-clés :
    • Une fois à une centaine de résultats ou moins, parcourez les résultats avec le regard et votre jugement.
    • Utilisez aussi les options de tri, de filtre, de raffinement, de limitation (voir ci-dessous).
    • Annoter ce qui fonctionne bien et ce qui ne fonctionne pas, pour capitaliser sur les bonnes pratiques à appliquer ensuite dans d’autres bases de données (voir ci-dessous).
  • Astuce : certains outils de recherche ont toujours du mal avec les accents car ils sont programmés dans des langages informatiques anglo-saxons sans accents. Si les recherches sont infructueuses, tentez sans accent. Exemple : Jérôme Mùñoz-Außerdem -> Jerome Munoz-Ausserdem.

7.8 Trier filtrer, raffiner, limiter

  • Pourquoi ?
    • Varier les stratégies de recherche (pour ne pas faire reposer toute votre recherche sur les mots-clés).
    • Certaines variables (comme la date de publication) sont utilisables seulement à partir de ces fonctions.
  • Comment ?
    • Lancer une requête puis attendez que la liste de résultats s’affiche.
    • En haut de la liste de résultats devrait apparaître une option de tri des résultats. Les tris les plus intéressants sont :
      • par nombre de citations (du plus cité au moins cité). Pas disponible dans toutes les bases de données.
      • par date (du plus récent au plus ancien).
      • par « pertinence » : Attention : le tri par dit par pertinence (relevance) est souvent un tri automatique effectué par des algorithmes de la base de données et il est rare que l’on connaisse la recette de ces algorithmes. Donc, la pertinence est très relative.
    • Sur le côté droit ou gauche devrait apparaître un menu avec des options de filtrage, de raffinement ou de limitation. Ces catégories sont parfois nommées facettes. Les plus intéressants sont :
      • Par discipline.
      • Par date.
      • Par type de document :
        • Tous les types de documents ne se valent pas (voir le chapitre sur les Types de document).
        • Choisir de préférence Article ou Review Article.
        • Certaines bases de données proposent aussi de filtrer les articles qui sont issus de revues avec révision par les pairs. Cette notion peut se nommer de manière très différente d’une base de données à l’autre.BIB+
      • Par langue. NB: parfois vous demandez des références de documents en français seulement et… dans les résultats se trouvent encore beaucoup de références en anglais. C’est parce que le document original en bout de ligne (ou en bout de clic) est bien en français, mais sa fiche de référence dans la base de données est en anglais. En effet, le titre et le résumé ont été traduit en anglais pour donner une visibilité plus internationale à un article non anglophone.
      • Par sujets. Attention, certaines références de document n’ont pas de sujets, ou bien les sujets ne sont pas bien indexés, alors il se peut que ce filtrage ne soit pas pertinent.
      • Par type de méthode : dans certaines bases de données spécialisées (PsycInfo, etc.).

7.9 Plan de concepts

  • Il est fortement recommandé de lister tous les mots-clés de son sujet de recherche sous la forme de colonnes groupant les synonymes par thèmes.
  • Ce tableau exhaustif s’appelle un plan de concept.
Thème de recherche 1 Thème de recherche 2 Thème de recherche 3
démence personnes âgées jeu de société
cognition vieux jeu de carte
mémoire
  • En médecine, pour répondre à une question de recherche clinique, on utilise ce plan de concept suivant la méthode nommée PICO où chaque colonne correspond à un thème précis :
    • P pour Population (ou Patient ou Problème)
    • I pour Intervention
    • C pour Comparativement à…
    • et O pour Outcomes (résultats).
      • Notez un élément très intéressant : la colonne O des résultats n’est PAS une colonne de mots-clés pertinents. En effet, cette colonne est l’équivalent des mots vides ou des mots inutiles ou des mots bloquants pour la recherche que nous avons vu précédemment.

7.10 Champ Sujets

  • Pourquoi c’est important ?
    • Parce que c’est le champ le plus pertinent dans une description de document. Il contient des mots décrivant le coeur de ce dont parle le document (les thèmes abordés les plus importants).

      Chercher vos mots-clés dans les champs Résultats
      Titre seulement **T rop peu** de résultats
      Sujets seulement Pertinents
      Titre + Sujets + Résumé Pertinents
      Partout (toutes les métadonnées de description + le texte intégral) Trop de résultats
  • Vocabulaire contrôlé :
    • Le champ Sujets est parfois alimenté par les auteurs du document, dans ce cas on parle de mots-clés non contrôlés.
    • Plus intéressant : parfois, le champ Sujets est alimenté par des bibliothécaires qui travaillent pour l’outil de recherche (le catalogue d’institution, la base de données, etc.). Dans ce cas, les mots-clés utilisés sont issus d’une liste contrôlée de mots-clés. On dit aussi un thésaurus (voir ci-dessous).
  • Astuces :
    • Le champ Sujets peut s’appeler de plein de manières différentes : subject headings, subjects, vedettes-matières, mots-clés, descripteurs, descriptors, tags, keywords, etc.

7.10.1 Utiliser un thésaurus

  • Si la base de données possède un thésaurus, il peut être intéressant de consulter et utiliser celui-ci pour faciliter le travail sur les synonymes.
    • En effet, du personnel qualifié ajoute manuellement des mots-clés issus d’une liste contrôlée de mots-clés sur chacun des enregistrements de la base de données.
    • Repérer le(s) bons mots-clés dans le thésaurus permet de limiter le travail de collecte de synonymes puisqu’on a identifier le(s) mots pertinents pour un concept donné.

7.11 Quelques stratégies de recherche avancée

7.11.1 Documenter son parcours de recherche

  • Pourquoi ?
    • Pour capitaliser et reproduire sur les stratégies de recherche gagnantes.
    • Pour éviter de répéter les stratégies de recherche improductives et les outils inadaptés.
    • Visualiser tout le travail effectué.
    • Être capable d’en rendre compte si besoin et de rendre votre travail documentaire reproductible.
  • Comment ? En prenant des notes (au choix) :
    • Dans un fichier électronique simple (chaque chapitre/section est un outil de recherche, copier-coller les stratégies).
    • Dans le logiciel Zotero, sous la forme de notes indépendantes placées dans une collection « Historique de recherche » par exemple.
    • Dans le logiciel Obsidian.md, sous la forme d’une note ou d’une série de notes dans un dossier.
    • Dans un carnet papier.
    • Au verso des pages imprimées de ce superbe Manuel pratique de recherche documentaire.
  • Dans le cas où vous menez une revue exhaustive de littérature ou une revue systématique, cette méthode de documentation est très importante car elle va vous permettre de documenter votre processus de recherche, de sélection et de décision.

7.11.2 Utilisation du NOT pour un thème très général

  • Par exemple: je cherche des documents sur le jeu et les adultes.
    • Or, il y a peu de documents pertinents si je lance une requête de type : jeu AND adulte``*
    • Même avec des synonymes : jeu (adulte``*`` OR homme``*`` OR femme``*`` OR men OR women)
    • Alors une stratégie serait de chercher tous les documents qui contiennent jeu et qui rejette tout ce qui n’est pas sur les adultes : jeu NOT (enfant``*`` OR kid``*`` OR senior``*`` OR vieux OR elder``*``)

7.11.3 Combiner les historiques de recherche

  • Pourquoi ? Pour avoir plus de contrôle sur chaque thème de mon expression de recherche.
  • Comment ?
    • On lance d’abord des recherches individuelles sur chaque thème de recherche. Quand tous les thèmes de recherche ont été explorés individuellement, on connaît leur nombre de résultats pour chacun. On termine la recherche en allant dans une option souvent nommée Historique de recherche (ou Search History), et on combine chacune de ces recherches avec des AND. Parce que l’on connaît le volume de résultats de chaque thème, on peut mieux comprendre où une recherche bloque ou une recherche ne fonctionne pas. On a plus de contrôle que si on lance une recherche complète avec tous les thèmes en un seul clic.
    • Rares plateformes de bases de données qui offrent cette option avancée : Web of Science, EBSCO, ProQuest, etc.

  1. Nous allons voir plus loin comment constituer un groupe de synonymes avec l’opérateur OR.↩︎