Hexagon shaped overlay

科学検索エンジン:なぜそのデザインには芸術と科学が必要なのか

5
min read

検索エンジンは、最も一般的な名前が検索行為そのものの代用であるという情報を見つけるための標準的なツールになりました。 しかし、検索エンジンから入手できる情報の膨大さは、科学的な概念や研究の検索など、具体的な情報を照会する際に障害となる可能性があります。 新しい情報を見逃さずに有用で関連性のある結果を返すことは、難しいバランスですが、新しいツールと設計機能によりプロセスが改善されています。

科学研究者はこの課題を熟知しており、適切なツールがなければ、関連する出版物や資料を見つけるのが難しくなります。 結果が広すぎて、本当に重要な結果が見つかりません。 焦点が絞られすぎた回答を返すと、重要な新しいアイデアを見逃す可能性があります。

科学研究のスイートスポットを決定するのは難しい場合がありますが、幸いなことに、手の届かないところにあるわけではありません。

検索エンジンにおける再現率と精度

科学的検索を理解するには、まず検索エンジンがどのように機能するかを理解することが重要です。 たとえば、Googleは想起を優先します。 言い換えれば、クエリに対して返される可能性のある回答の数を最大化します。 ユーザーがすべての可能な回答を確認する必要があるという懸念はなく、テクノロジーは、ユーザーにとって最も価値のある情報が結果ページの一番上に表示されるように、関連性によって結果をランク付けしようとします。

逆に、他の検索エンジンは精度を優先し、特定のクエリに対して最も関連性の高い回答を最大化することができます。 このタイプの検索は、図書館の目録検索の使用に似ています:タイトル、著者、日付など、検索仕様の多数のフィールドを持つ確立された結果のセットがあります。 精度を最大化すると、管理可能な結果セットが得られる可能性が高くなりますが、精度検索の調整のすぐ外側にあるものを見逃す可能性も高くなります。

この違いの例を見てみましょう:ユーザーが「可塑剤40T」というクエリを検索した場合、一般的な検索エンジンは、クエリ全体が固有の商業物質を表していると認識しません。 リコールを優先して、「40T」を含まない可塑剤の一般的な結果を返します。ユーザーは 2 番目のクエリを実行し、結果に "40T" が含まれるように絞り込む必要があります。

CAS SciFinder(R)などによる、より精度を重視した科学を意識した検索では、キュレーションされたオントロジーデータに対してクエリを評価し、これを新規物質エンティティとして認識します。 したがって、特定の物質である可塑剤40Tの結果は、この物質の別の名前が記事の本文で使用されている場合でも、すぐに返されます(図1を参照)。

__wf_reserved_inherit
図 1. CAS SciFinderの「可塑剤40T」の参照検索の例。

適切な検索機能を設計することは、CASの活動の中心であり、CAS SciFinderは、科学研究に関連する用語の新規物質を簡単に認識することができます。 科学者によって開発された検索ツールは、本質的に、仲間の研究者が使用する用語に対してより敏感です。 しかし、1つの商業物質を探すことは、依然としてかなり定義された作業です。 研究者が病気、研究分野、または概念に関連する関連性だけでなく幅も探している場合はどうなりますか?

検索エンジンのスイートスポットを見つける方法

幅と深さのバランスをとる一般的な方法は、"and"、"or"、およびその他の接続詞を使用して用語を接続する ブール 検索を使用することです。 引用符を使用して検索語をロックすると、クエリを絞り込んでより正確な結果を得るのにも役立ちます。

特定のクエリをどのように作成するかに関係なく、研究者は構造化データを使用し、複数の用語のテキスト文字列を認識する検索エンジンでスイートスポットを見つけることができます。 構造化データは一貫した形式を持ち、その特性に基づいてデータのコレクションに編成されます。 これにより、検索アルゴリズムは、返す結果をより効率的に識別して評価できます。 一意の複数用語テキスト文字列を単一のエンティティとして認識し、そのように検索すると、用語フラグメントを個別に検索することによって生成される無関係な結果が減少します。

__wf_reserved_inherit
図 2. 科学的検索における想起と精度のバランスをとるという固有の課題を描いたグラフィック。

このタイプのコンテンツコーパスをどのように開発しますか? 慎重なキュレーションと オントロジー の使用を通じて、ユーザーのクエリの洗練された理解を構築します。 たとえば、 CAS Content CollectionTMは、人間がキュレーションした科学情報の最大のリポジトリであり、CASのキュレーションポリシーは、最も関連性の高い用語と物質を特定して、一意のインデックス付きエントリを作成します。 キュレーションにより、検索結果は特定の出版物のタイトルまたは要約の内容に限定されません。

私たちの索引には、その出版物の科学の新規性に固有の科学文献の実験セクションの概念と用語が含まれています。 たとえば、ジャーナル記事の導入セクションでは、特定の病気の次の画期的な治療法など、著者が関心のあるメタコンテキストを定義する場合がありますが、記事の実際の新規性は、化学プロセスを評価するための新しい分析方法です。 精選されたデータを使用するCAS SciFinderのようなソリューションは、ユーザーのクエリにより適切に応答するために、メタコンテキストではなく分析方法に焦点を当てます。

オントロジーは、関連する結果を得るために適切なアイデアを結びつけます

これらのつながりを構築する方法は、同義語関係のキャプチャを含む用語の厳選されたコレクションであるオントロジーを使用することです。 これらの関係は、洗練された、しかしまだ活用すべき用語の広範なリストを提供します。 ユーザーが商品名で物質を検索すると、オントロジーには、 特許出願の化学名、その他の商品名、さらには内部識別子のバリエーションが含まれます。 これらの接続がなければ、一般的な検索エンジンは関連する結果を識別できません。

科学者が科学者のために構築した検索ツールが、より効率的なイノベーションを推進できる理由です — 検索エンジンが再現率を優先するよりも早く、より関連性の高い結果を提供でき、データは主要な用語間の階層関係を捉えます。

例えば、CAS SciFinderで「ソニック・ヘッジホッグ」という用語を検索する場合と、一般的な検索エンジンで検索すると、結果が大きく異なります。 CAS SciFinderは、これをタンパク質として即座に認識し、関連する科学論文を返します(図3参照)。 しかし、一般的な検索エンジンは、科学者が探しているタンパク質情報ではなく、よく知られたビデオゲームのキャラクターを返します。

__wf_reserved_inherit
図 3. すべての動物の胚形成を調節するタンパク質であるソニックヘッジホッグのCAS SciFinder検索例。

オントロジーを超えて、人間がキュレーションしたインデックス作成により、アルゴリズムが一般的に失敗しがちな発見がさらに可能になります。 人間は、コードと化学構造の間の関係を認識し、人間以外のキュレーションされたインデックス作成アプローチでは見逃される可能性のある化学物質を定義する関係を構築できます。 これにより、分子や化合物などの図のデータをキャプチャでき、その情報を、出版物の他の場所にある表、グラフ、またはテキストにある説明に結び付けることができます(図4を参照)。

キュレーションがなければ、一般的な検索エンジンはグラフや図表を光学式文字認識(OCR)に頼らざるを得ず、画像解像度が悪いという単純なことでも、重要な発見を見逃してしまう可能性があります。 CASのチームのような人間がキュレーションしたソリューションは、最先端のテクノロジーのスピードとアルゴリズムの進歩により、人間の専門知識を最大限に活用します。


__wf_reserved_inherit
図 4. オントロジー情報のキュレーションのための非テキストデータの例。

検索の未来にとってデータ品質が重要

科学的検索は、地元のレストランのレビューを調べるのとは異なり、学術機関と商業機関の両方が、想起と精度のバランスが取れたソリューションの恩恵を受けています。 あらゆる科学分野で知識体系が成長するにつれて、検索機能は進化する必要があります。 これは、AI主導のツールが標準的な検索ソリューションになるにつれて、ますます重要になります。 大規模言語モデル (LLM) は、適切なデータでトレーニングされ、テキスト以外のデータを処理するためのニューラル ネットワークのレイヤーを備えていない限り、科学的検索に 苦労 する可能性があります。

専門家によるキュレーション、堅牢なオントロジー、非テキストデータの活用能力により、専門的なソリューションは、科学的検索と革新的な発見を継続的に改良および改善するという課題に立ち向かうことができます。

Gain new perspectives for faster progress directly to your inbox.