Hexagon shaped overlay

Moteurs de recherche scientifiques : pourquoi leur conception nécessite de l’art et de la science

5
min read

Les moteurs de recherche sont devenus un outil standard pour localiser des informations dont le nom est maintenant un substitut pour l’acte même de recherche – d’où le fait de « googler » quelque chose. Pourtant, l’immensité des informations disponibles via les moteurs de recherche peut être un obstacle lors de l’interrogation de concepts et de recherches scientifiques. Obtenir des résultats utiles et pertinents sans manquer de nouvelles informations est un équilibre difficile, mais de nouveaux outils et capacités de conception améliorent le processus.

Les chercheurs scientifiques ne connaissent que trop bien ce défi, et sans les bons outils, il peut être plus difficile de trouver des publications et des documents pertinents. Des résultats trop larges sont renvoyés et vous ne trouvez pas ce qui compte vraiment. Si vous renvoyez des réponses trop ciblées, vous risquez de passer à côté d’une nouvelle idée importante.

Déterminer le point idéal pour la recherche scientifique peut être difficile, mais heureusement, ce n’est pas hors de portée.

Rappel vs précision dans les moteurs de recherche

Pour comprendre la recherche scientifique, il est d’abord important de comprendre le fonctionnement des moteurs de recherche. Google, par exemple, privilégie le rappel. En d’autres termes, il maximise le nombre de réponses qui peuvent potentiellement être renvoyées pour une requête. Il n’y a aucun souci que l’utilisateur ait besoin d’examiner toutes les réponses possibles, et la technologie tente de classer les résultats par pertinence afin que les informations les plus précieuses pour l’utilisateur se trouvent en haut de la page de résultats.

À l’inverse, d’autres moteurs de recherche peuvent privilégier la précision, ce qui maximise les réponses les plus pertinentes pour une requête donnée. Ce type de recherche s’apparente à l’utilisation de la recherche dans le catalogue d’une bibliothèque : il existe un ensemble établi de résultats avec de nombreux champs pour la spécification de la recherche, tels que le titre, l’auteur et la date. L’optimisation de la précision peut augmenter vos chances d’obtenir un ensemble de résultats gérable, mais elle augmente également la possibilité de manquer quelque chose qui ne correspond pas au réglage de la recherche de précision.

Voyons un exemple de cette différence : si un utilisateur recherche la requête « Plastizer 40T », un moteur de recherche typique ne reconnaîtra pas que l’ensemble de la requête représente une substance commerciale unique. En privilégiant le rappel, il renverra des résultats génériques pour les plastifiants qui n’incluent pas « 40T ». L’utilisateur devra effectuer une deuxième requête, en affinant pour inclure « 40T » dans les résultats.

Une recherche plus précise et plus scientifique, par exemple via CAS SciFinder(R), évalue la requête par rapport à des données d’ontologie organisées et la reconnaît comme une nouvelle entité de substance. Il renvoie donc immédiatement des résultats pour la substance spécifique Plastizer 40T, même si un nom différent pour cette substance est utilisé dans le texte de l’article (voir Figure 1).

__wf_reserved_inherit
Graphique 1. Exemple de recherche de référence CAS SciFinder pour « plastifiant 40T ».

La conception des bonnes capacités de recherche est au cœur de ce que nous faisons chez CAS, c’est pourquoi CAS SciFinder peut facilement reconnaître une substance nouvelle dans un terme ayant des liens avec la recherche scientifique. Les outils de recherche développés par des scientifiques sont intrinsèquement plus sensibles à la terminologie utilisée par les autres chercheurs. Pourtant, la recherche d’une substance commerciale reste un exercice assez défini. Que se passe-t-il lorsqu’un chercheur recherche la pertinence, mais aussi l’ampleur d’une maladie, d’un domaine d’étude ou d’un concept ?

Comment trouver le sweet spot des moteurs de recherche

Une façon courante d’équilibrer l’ampleur et la profondeur consiste à utiliser une recherche booléenne qui utilise « et », « ou » et d’autres conjonctions pour relier les termes. L’utilisation de guillemets pour verrouiller les termes de recherche peut également aider à affiner les requêtes pour des résultats plus précis.

Quelle que soit la façon dont ils élaborent une certaine requête, les chercheurs peuvent toujours trouver le point idéal avec un moteur de recherche qui utilise des données structurées et reconnaît les chaînes de texte à plusieurs termes. Les données structurées auront un format cohérent et seront organisées en collections de données en fonction de leurs caractéristiques. L’algorithme de recherche peut alors identifier et évaluer plus efficacement les résultats à renvoyer. La reconnaissance de chaînes de texte multi-termes uniques en tant qu’entités uniques et la recherche en tant que telle réduisent les résultats non pertinents qui seraient générés par une recherche individuelle dans les fragments de termes.

__wf_reserved_inherit
Figure 2. Graphique illustrant le défi inhérent à l’équilibre entre la mémoire et la précision dans la recherche scientifique.

Comment développer ce type de corpus de contenus ? Grâce à une sélection minutieuse et à l’utilisation d’ontologies pour construire une compréhension affinée des requêtes des utilisateurs. La collection de contenu CASMC, par exemple, est le plus grand dépôt d’informations scientifiques organisé par des humains, et nos politiques de conservation identifient les termes et les substances les plus pertinents pour créer des entrées indexées uniques. Grâce à la curation, les résultats de recherche ne se limitent pas au contenu d’un titre ou d’un résumé d’une publication donnée.

Notre indexation comprend des concepts et des terminologies provenant des sections expérimentales de la littérature scientifique qui sont spécifiques à la nouveauté de la science dans cette publication. Par exemple, une section introductive d’un article de revue peut définir un méta-contexte d’intérêt pour l’auteur – comme le prochain remède révolutionnaire pour une certaine maladie – mais la nouveauté réelle de l’article est une nouvelle méthode analytique pour évaluer un processus chimique. Une solution comme CAS SciFinder qui utilise des données organisées se concentrera sur la méthode analytique, et non sur le méta-contexte, afin de mieux répondre à la requête d’un utilisateur.

Les ontologies connectent les bonnes idées pour des résultats pertinents

La façon dont nous construisons ces connexions est par le biais d’ontologies, qui sont des collections organisées de terminologie qui incluent la capture des relations de synonymes. Ces relations fournissent une liste raffinée mais encore longue de termes à exploiter. Si un utilisateur recherche une substance sous un nom commercial, notre ontologie inclura des variations de noms chimiques, d’autres noms commerciaux et même des identifiants internes dans les dépôts de brevets. Sans ces connexions, un moteur de recherche typique ne peut pas identifier les résultats pertinents.

C’est pourquoi un outil de recherche conçu par des scientifiques pour des scientifiques peut stimuler une innovation plus efficace : il peut fournir des résultats plus pertinents plus rapidement qu’un moteur de recherche privilégiant le rappel, et les données capturent les relations hiérarchiques entre les terminologies clés.

Par exemple, la recherche du terme Sonic Hedgehog dans CAS SciFinder par rapport à un moteur de recherche commun donne des résultats nettement différents. CAS SciFinder reconnaît immédiatement qu’il s’agit d’une protéine et renvoie les publications scientifiques pertinentes (voir figure 3). Un moteur de recherche généraliste, cependant, renvoie le personnage de jeu vidéo bien connu, et non les informations sur les protéines qu’un scientifique rechercherait.

__wf_reserved_inherit
Figure 3. Un exemple de recherche CAS SciFinder pour Sonic Hedgehog, une protéine régulant la morphogenèse embryonnaire chez tous les animaux.

Au-delà des ontologies, l’indexation organisée par l’homme permet de découvrir où les algorithmes échouent généralement. Un humain peut reconnaître les liens entre un code et une structure chimique et établir des relations définissant une entité chimique que les approches d’indexation non humaines pourraient manquer. Cela permet de capturer des données dans des diagrammes, tels que des molécules et des composés, et de relier ces informations à des explications qui peuvent se trouver dans des tableaux, des graphiques ou du texte ailleurs dans la publication (voir la figure 4).

Sans curation, un moteur de recherche typique doit s’appuyer sur la reconnaissance optique de caractères (OCR) pour les graphiques et les diagrammes, et quelque chose d’aussi simple qu’une mauvaise résolution d’image pourrait conduire à manquer une découverte importante. Les solutions conçues par l’homme, comme celles de nos équipes chez CAS, tirent parti du meilleur de l’expertise humaine avec la vitesse et les avancées algorithmiques de la technologie de pointe.


__wf_reserved_inherit
Graphique 4. Exemples de données non textuelles pour la conservation d’informations ontologiques.

La qualité des données est importante pour l’avenir de la recherche

La recherche scientifique n’est pas comme la recherche d’un avis sur un restaurant local, et les institutions universitaires et commerciales bénéficient des solutions qui équilibrent la mémorisation et la précision. À mesure que le corpus de connaissances s’accroît dans n’importe quel domaine scientifique, les capacités de recherche doivent évoluer. Cela ne fera que devenir plus critique à mesure que les outils basés sur l’IA deviendront les solutions de recherche standard. Les grands modèles de langage (LLM) peuvent avoir des difficultés avec la recherche scientifique à moins qu’ils ne soient formés sur les données appropriées et qu’ils ne disposent de couches de réseaux neuronaux pour gérer les données non textuelles.

Grâce à une sélection d’experts, à des ontologies robustes et à la capacité d’exploiter des données non textuelles, les solutions spécialisées peuvent relever le défi d’affiner et d’améliorer continuellement la recherche scientifique et les découvertes innovantes.

Gain new perspectives for faster progress directly to your inbox.