20  Opérateurs logiques

20.1 L’essentiel à savoir

L’essentiel à savoir se trouve dans cette superbe capsule vidéo de 8 minutes :

Si vous voulez aller plus loin : voici une série de dix capsules présentant les opérateurs en détail et avec toutes les techniques secrètes de shaolin pour devenir le grand maître des requêtes. Les différentes sections ci-dessous reprennent les contenus des capsules.

20.2 AND

  • AND est l’opérateur logique le plus important. De loin.

20.2.1 Pourquoi ?

  • Effet du AND : tous les mots séparés par AND (ou une espace) sont exigés dans chacun des résultats.
    • Eh oui! C’est pour ça qu’on vous a dit de mettre le moins de mots possibles.
    • Il permet de repérer seulement vos mots-clés parmi des millions de références, en un clic et en quelques secondes. Wow!
  • C’est même devenu l’opérateur par défaut de la grande majorité des moteurs de recherche.
    • En effet, chaque fois que vous mettez une espace entre deux mots un moteur de recherche, ce dernier ajoute de manière invisible une opération logique AND entre ces mots.
    • Ainsi, pas la peine de l’écrire manuellement, laisser une espace vide suffit.
    • Exemples (les deux recherches ci-dessous sont identiques et équivalentes) :
      • dementia elderly board games
      • dementia AND elderly AND board AND games

20.2.2 Fonctionnement détaillé

  • Chaque fois que vous ajoutez un mot supplémentaire, vous exigez qu’il figure dans chaque résultat de recherche.
    • Donc utilisez le moins de mots possibles. Dans le doute, enlevez des mots. Pourquoi ? Nous avons vu que si vous exigez 2 mots, seuls les résultats contenant ces 2 mots seront affichés. Si vous en exigez un 3eme, il faudra que chaque résultat contienne obligatoirement les 3 mots. Et ainsi de suite. Plus vous ajoutez de termes avec l’opérateur ET / AND, moins vous aurez de résultats. C’est idéal pour trouver une aiguille dans une botte de foin de millions de documents. MAIS attention, exiger un nouveau mot peut réduire d’un facteur de 100 ou 1000 le nombre de résultats de chaque étape. Ce n’est pas une réduction lente et progressive. C’est abrupt.
  • Pour garantir d’utiliser un minimum de mots, progressez par étapes successives quand vous exigez des mots-clés. Par exemple, je vous recommande de commencer par mot le plus important, celui que vous voulez voir absolument dans tous les résultats, puis ensuite de lancer la recherche et de regarder le nombre de résultats et la pertinence des résultats. Ainsi, vous aurez plus de contrôle sur le processus de vos recherches de documents puisque vous avancez pas à pas et que vous pouvez supprimer ou changer de mots-clés plus facilement en revenant à une étape antérieure plus satisfaisante.
  • La recherche de document est un processus d’essai-erreur-correction qui va vous approcher progressivement de résultats pertinents. En pratiquant ce processus régulièrement, dans vos travaux universitaires mais aussi dans tous vos besoins d’information, vous allez apprendre à récolter de meilleurs résultats dans un temps plus court. Savoir « faire parler outils de recherche » pour leur soutirer toute l’information adéquate, c’est une vraie compétence pratique très utile !
  • Je vous dis ça car nous surévaluons parfois la qualité de la description d’un document dans un outil de recherche (dans sa notice électronique, dans ses métadonnées). Or cela peut nous conduire à exiger des mots qui ne s’y trouvent pas et ainsi ne pas repérer les documents pertinents. En effet, chaque fois que vous exigez un nouveau mot, c’est comme si vous faites le pari que ce mot existe quelque part dans la description du document. Si le mot n’y figure pas, le fait de l’exiger va l’enlever des résultats.
    • Exemple : Je cherche un chapitre de livre en exigeant les mots du titre du chapitre du livre. Or, dans les collections de la bibliothèque, nous avons bel et bien ce livre. De plus, dans l’outil de recherche ou le catalogue informatique de la bibliothèque, nous avons la notice électronique du livre. Mais la notice électronique du livre ne contient pas la liste des chapitres. Donc je ne peux pas repérer le chapitre avec son titre. Il faut que je repère ce chapitre avec les mots présents dans le titre du livre seulement.
    • Les descriptions des notices électroniques des documents ne sont pas toutes semblables. D’une manière générale, on pourrait dire que des notices récentes sont plus riches et complètes, tandis que des notices plus anciennes sont plus sommaires (dans le sens où elles contiennent moins d’information).
  • Une erreur courante consiste à utiliser des AND entre des mots issus d’un même concept, d’un même thème ou de thèmes proches. Par exemple, des synonymes ou des mots plus génériques et plus spécifiques. Voici un exemple évident :prévention AND sensibilisation. Ne le faites pas car vous exigez alors d’obtenir des résultats qui contiennent obligatoirement ces deux synonymes, ce qui est rare. En effet, dans le document et sa description, il y a sûrement l’un ou l’autre de ces mots mais rarement les deux.
  • Petite anecdote : Google a été l’un des premiers moteurs de recherche du web à faire un AND efficace, sur le modèle des catalogues et des bases de données bibliographiques universitaires. Cela a été l’une des raisons de son succès. Notez que dans Google, l’ordre des mots à son importance pour l’affichage des résultats. Le premier mot exigé a plus de poids que le deuxième, le deuxième que le troisième, etc.

20.3 Troncature*

  • C’est le deuxième opérateur le plus important.

20.3.1 Pourquoi ?

  • Parce que dans la plupart des bases de données universitaires, si vous saisissez un mot alors le moteur de recherche ne va chercher que ce mot exactement.
    • Par exemple, si je demande le mot femme, les documents qui contiennent femmes au pluriel sont ignorés.
      • Or, on n’est pas habitué à ça car Google fait cette recherche de mots semblables à notre place.
      • Les outils universitaires sont extrêmement précis et rigoureux dans la syntaxe. C’est très pratique pour chercher des choses spécifiques, mais ceux qui ne connaissent pas ce principe passent à côté de plein de documents intéressants.

20.3.2 Comment faire ?

  • Ajouter à un endroit stratégique vers la fin du mot une astérisque* collée au mot.
    • L’astérisque remplace aucune lettre ou une série variable de lettres.
    • Idéal pour repérer les féminins, les pluriels et les déclinaisons proches.
  • Exemples :
    • dementia elder* board game*

    • play* kid* memor*

  • Ne pas hésiter à utiliser partout, la majorité des moteurs de recherche universitaires savent l’utiliser.
    • Par contre, comme c’est une opération informatique très gourmande en ressources, elle n’est pas disponible dans Google ou les grands moteurs du web (Bing, etc.). Ces outils font les recherches de féminins/masculins, singuliers/pluriels et déclinaisons proches pour vous à partir du mot complet que vous leur avez fournis.
    • Attention aux troncatures très courtes, ça peut vous repérer n’importe quoi. Exemple : cat*
  • À l’exception de quelques bases de données de chimie ou de pharmacie, il n’est pas possible de faire de troncature devant ou dans un mot. Seulement à la fin.

20.4 OR ( )

20.4.1 Pourquoi ?

  • Très utile pour regrouper des synonymes dans un seul ensemble de résultats.
  • En un seul clic, je peux lancer plusieurs recherches correspondant à plusieurs termes différents et avoir une seule liste de résultats à parcourir. Je gagne beaucoup de temps.

20.4.2 Comment ?

  • Dans une parenthèse, écrire tous les mots-clés et les séparer par OR (espace OR espace).
  • Exemples :
    • (dementia OR cogniti*) AND (elder* OR aged) AND (board OR card OR role-play*) AND game*
  • Les parenthèses sont importantes pour bien grouper les mots, surtout si on rédige sa recherche dans une seule case. Parfois, si on met tous les mots dans une seule case de recherche, la case fonctionne comme une parenthèse.

20.5 “Expression entre guillemets carrés”

20.5.1 Pourquoi ?

  • Permet d’avoir moins de résultats mais toujours pertinents, ou bien de présenter les meilleurs résultats en premier.
    • En effet, mettre un groupe de mots entre guillemets carrées va chercher exactement ces mots dans l’ordre indiqué.
    • S’il n’y a pas de guillemets, la machine va opérer un AND entre les mots (ce qui va chercher tous les mots mais n’importe où dans le document, donc quelques documents pertinents mais aussi un grand nombre de documents moins ou pas pertinents).

20.5.2 Comment ?

  • Utiliser les guillemets carrés de votre clavier (clavier canadien ou américain : avec la touche 2).
  • Ne pas utiliser les chevrons « » (guillemets triangulaires), ne pas utiliser les doubles apostrophes '' : cela ne fonctionne pas.
  • Choisir l’expression exacte à recherche.
    • Dans les bases de données universitaires, il est recommandé de commencer la recherche SANS les guillemets. Ensuite, s’il y a trop de résultats, on peut ajouter des guillemets si c’est applicable.
    • Les guillemets fonctionnent particulièrement bien dans Google et ses sous-produits (Google Scholar, etc.) car il y a toujours trop de résultats dans Google et on a besoin de bien ordonner les résultats pour faire apparaître les résultats pertinents en premier. De plus, encadrer UN mot ou plusieurs mots entre guillemets permet de forcer Google à chercher ce mot obligatoirement.
  • C’est particulièrement utile pour :
    • Des expressions comme "effet de serre" ou "obligation de garantie", etc.
    • Des personnes "Pascal Martinolli" ou "Martinolli, Pascal"
    • Vérifier si une phrase d’un travail est issue d’un copier-coller du web : mettre la phrase (au complet ou partielle) entre guillemets dans la case de recherche de Google.

20.6 NOT

20.6.1 Pourquoi ?

  • Dans le cas où on a trop de résultats et que l’on remarque que beaucoup de résultats correspondent à un critère qui ne nous intéresse pas. On souhaite alors enlever automatiquement de la liste de résultats tous les documents qui correspondent à un ou plusieurs critères.
  • Attention : c’est un opérateur à utiliser avec précaution car il peut invisibiliser des résultats pertinents.
    • Par exemple : il est fortement déconseillés dans les revues de littérature très structurées comme les revues systématiques. Il vaut mieux rejeter des documents a posteriori et après jugement que d’utiliser NOT a priori.

20.6.2 Comment ?

  • Rédiger sa recherche et, à la fin, ajouter l’opérateur NOT suivi du mot qui va éliminer tous les documents utilisant ce mot.
  • Exemples d’utilisation :
    • Une recherche est envahie par des résultats d’un domaine complètement différent.
      • Exemple : senateur* Ottawa va donner des résultats de sport (puisqu’une équipe de hockey s’appelle les Sénateurs d’Ottawa) et des résultats de politique. Si on veut seulement des résultats de politiques, il faut utiliser senateur* Ottawa NOT hockey.
    • On peut utiliser le NOT pour enlever des publications gouvernementales d’une liste de résultats.
      • Exemple : mon sujet NOT (gouvernement* OR minist*)
    • On peut utiliser le NOT pour enlever des documents d’une discipline qui ne nous intéresse pas.
      • Exemple : drogue* NOT (pharma* OR biochim*)
    • On peut supprimer plusieurs mots en ajoutant NOT (mot1 OR mot2 OR mot3) par exemple.
    • Dans les produits Google, il faut utiliser le trait d’union collé au mot à supprimer : exemple Senateurs Ottawa -hockey

20.7 Autres

  • Selon les bases de données, il peut exister d’autres opérateurs :
    • Le masque, souvent sous la forme d’un symbole $, qui permet de remplacer une lettre. Exemple : wom$n.
    • Les opérateurs de proximité, comme NEAR, qui permettent de repérer des documents dont les mots cherchés sont proches les uns des autres.

20.8 « IAg »

  • Certaines bases de données commencent à intégrer des moteurs de recherche de type « IAg » (intelligence artificielle générative).
    • « Chercher sémantiquement plutôt qu’avec des mots-clés
      pour produire des réponses plutôt que des liens » Ken Fitch
    • Exemples : Perplexity, Elicit, SciSpace, Undermind, Web of Science Research Assistant, etc.
  • Ce que font ces boîtes de dialogue, c’est :
    1. Lire votre commande
    2. Extraire les concepts principaux et rejeter les mots-vides
    3. Calculer quels sont les concepts proches
      • pas avec des OR ou des troncatures mais avec un chiffrement des mots-clés sous la forme de vecteurs (une série de valeurs numériques) (vectors, embedding models)
    4. Croiser ces concepts et appliquer la recherche sur un corpus de références.
  • Avantages :
    • C’est pratique pour débloquer les débutants qui ne savent pas utiliser les opérateurs ou qui utilisent trop de mots-vides ;
    • Performant pour les sujets flous ou généraux ou qui peuvent être déclinés sous une multitude de termes (“la chute de Justin Trudeau”, “thérapie par l’art”, etc.).
    • Permet de repérer des concepts émergents avec du jargon nouveau (si le modèle est à jour).
  • Désavantages :
    • Moins performant quand on cherche un terme précis (une molécule, une personne, etc.).
    • C’est plutôt limité en terme de puissance de recherche.
      • Lent et coûteux en ressources.
      • Il est rare que le nombre de résultats dépasse dix (si une synthèse est produite) ou quelques dizaines d’études.
    • Cela trouve toujours quelque chose. Puisque c’est basé sur une proximité des vecteurs numériques et non sur une évaluation binaire si les termes sont présents ou pas.
    • Souvent les modèles numériques sont bien adaptés pour un domaine de la science mais ils sont peu performants pour d’autres domaines.
    • Cela n’est pas déterministe : chaque itération produit des résultats différents.
    • Effet boîte noire : On a peu de contrôle sur les recherches soumises et sur le processus d’essais-erreurs-corrections.
      • Il est difficile d’interpréter ce qu’il se passe à chaque intéraction.
      • Du coup, on apprend moins aussi…
  • Parfois un texte de synthèse est produit. Là aussi, il faut exercer son sens critique :
    • Il est souvent produit avec seulement les résumés des études (pas leurs contenus).
    • Il dépasse rarement 8-15 résultats intégrés.
    • Il peut faire des contresens ou des exagérations. Il faut toujours vérifier le document original.
    • Il peut donner une fausse impression d’autorité, ou de représentativité ou d’exhaustivité.
      • Or il est difficile pour un chercheur débutant de repérer si le traitement d’un sujet est trop partial et surtout trop partiel.
      • Avec des recherches par opérateurs logiques dans un corpus identifié, il est plus facile de repérer les biais, les vides, etc. De plus, en parcourant minutieusement ce corpus, on apprend en chemin (les termes, les auteurs, les revues, etc.).