Des booléens et des lapins

lapin_rigolo
Lorsque des bibliothécaires ou des documentalistes forment aux outils de la recherche documentaire, ils insistent en général sur les opérateurs booléens. Ces opérateurs logiques permettent d’écrire des équations très élaborées pour obtenir de l’information pertinente. Ils supposent une recherche autour du sujet pour déterminer des mots-clés, des synonymes, des termes techniques par l’emploi de dictionnaires, encyclopédies, manuels, connaissances préalables…

boolens

Cette pratique est ancrée dans l’utilisation de bases de données complexes, très structurées, autrefois difficiles d’interrogation (quoique, autrefois…). Aujourd’hui, la fausse simplicité de l’utilisation des moteurs de recherche incite les étudiants (notamment) à abandonner ces équations complexes pour se tourner vers des interrogations en langage naturel.
Le problème est que, si certains moteurs de recherche tel Google et DuckDuckGo, travaillent sur la recherche sémantique,

« La recherche sémantique a pour objectif d’améliorer la précision de recherche par la compréhension de l’objectif de recherche et la signification contextuelle des termes tels qu’ils apparaissent dans l’espace de données recherché, que ce soit sur le Web ou dans un système fermé, afin de générer des résultats plus pertinents ».  fr.wikipedia.org/wiki/Recherche_sémantique

de nombreuses bases de données s’appuient sur des moteurs de recherche qui utilisent toujours un système structuré dans lequel les opérateurs ont toute leur place et leur utilité (opérateurs booléens, opérateurs de proximité mais également champs de recherche : titre, auteur, résumé, mots-clés…). Or, en général, les étudiants ne font pas la différence entre langage naturel et langue d’indexation et leurs habitudes de recherche font qu’ils n’utilisent pas ou peu les opérateurs dans les bases de données scientifiques (je parle ici des pratiques observées en formation à la recherche documentaire, je n’ai pas de chiffres exacts).

Si Google semble bien enterrer la recherche par opérateurs (disparition du ~ pour la recherche de synonymes, du + pour forcer la recherche sur la forme exacte du mot et invalidation du – pour le NOT…), la réalité d’un web sémantique ne touche pas encore la majorité des bases de données utilisées par les étudiants (essayez Europresse, par exemple, mouhahaha !).

Le n° 340 de la revue BASES, titre sur la disparition des opérateurs booléens pour la recherche internet généraliste. Il en ressort cependant que, malgré des travaux comme le Rankbrain de Google, la recherche en langage naturelle est certes pertinente, mais finalement encore limitée.
Ils conseillent d’ailleurs une méthode en 3 étapes :

  1. tout d’abord, faire une requête en langage naturel pour laisser le moteur réfléchir à sa place et découvrir des ressources que l’on n’aurait pas pensé chercher (ouais sérendipité, ok) ;
  2. faire une requête plus traditionnelle pour affiner sa recherche et explorer les pistes trouvées précédemment ;
  3. et enfin, utiliser une requête sous forme de réponse, notamment si l’on manque d’éléments précis (c’est-à-dire une requête telle que : « la recherche sémantique est » au lieu de « recherche sémantique définition »).

Le problème c’est qu’il s’agit encore ici d’une pratique de spécialistes. Et la confusion grandit car la méthode de recherche entre les différents outils se différencie de plus en plus.

Lors de mes formations, j’insiste sur ces différences en présentant les spécificités des outils et de leurs modes d’interrogation : b ase de données spécialisée vs catalogue de bibliothèque moyenne vs moteur de recherche internet.


Le problème c’est que de plus en plus de bases de données proposent un mode d’interrogation simple s’appuyant sur le modèle Google tout en fonctionnant sur un système standard avec opérateurs, nous en laissant la surprise. C’est troublant, obscur, et cela complexifie le travail pour la personne qui fait la recherche.

En résumé, il me semble encore tout à fait intéressant de parler des opérateurs booléens en formation car cela permet d’évoquer la complexité de la recherche, du fait de ne pas se cantonner à deux ou trois termes vaguement extraits de son sujet, mais de questionner la pluralité des sens, la synonymie, les sujets connexes, mais également de la complémentarité des outils.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s