大規模言語モデルは科学研究に適しているのか

Philippe Ayala , Data Science Technical Manager

Senior chemistry professor writing on the board

AIツールや専門アプリケーションではなぜ大きいほどよいとは限らないのか

2022年のリリース以来、ChatGPTはAIをめぐる議論を大きく変えました。 奇跡とも脅威とも言われ、仕事に革命を起こすとか、都市を活性化するなどのポジティブな見込みから、人間の仕事を取り上げるというネガティブな影響まで、この大規模言語モデル(LLM)は、ほとんど何から何までできるように言われています。

ChatGPTとGPT-3/GPT-4は何が違うのか

ChatGPTと、GPTに数字が付いたLLM(GPT-3やGPT-4など)には重要な違いがあります。 これらはよく混同されたり、同じ意味で使われたりしていますが、ChatGPTは、より複雑なLLM(GPT-3またはGPT-4)上で動作する「使いやすい」インターフェースを持つチャットボットのアプリ部分のことです。

GPT-3とGPT-4はGenerative Pre-Trained Transformerモデルの異なったバージョンを指しています。 トランスフォーマーとは、ニューラルネットワークの一種で、言語モデルと呼ばれています。 これらのモデルは、学習することにより、文章中の単語のように緩く構造化されたデータのパターンと文脈を認識できるようになります。 トランスフォーマーは特にそれが得意なモデルです。 生成モデルは、文脈が与えられると、プロンプトから任意の長さの出力を生成することができます。 そしてGPTモデルは、この2種類のモデルを組み合わせたものになっています。

一方、ChatGPTは、GPT-3やGPT-4などのLLMの上に乗っかるアプリです。 以前の会話を継続させるためのメモリーモジュールがあり、有害または不適切な回答を最小限に抑えるフィルターや分類機能なども内蔵されています。

chat-gpt-LLM

LLMの構築には何が必要か

LLMはなかなかのものです。 GPT-3には1,750億のパラメーター、つまり学習しながらモデルが独自に変更できる値の数が、それだけあります。 2023年に発表されたGPTシリーズの最新版のGPT-4では、さらに多い1兆個のパラメータがあります。 GPT-4の使用経験がある人なら誰もが知っているように、これらのモデルは驚くほど幅広い知識を持ち、首尾一貫した情報を生み出す驚異的な能力があります。

ただし、この能力には文字通りコストが伴います。 ますます規模が大きくなるGPTモデルをトレーニングし、そしてChatGPTのようなアプリを展開することは、とてつもないエンジニアリングの偉業と言えます。 GPT-3の構築には460万ドル、そしてクラウドでの運用には少なくとも年間8.7万ドルかかっていると推定されています。 GPT-4の開発費は、おそらく1億ドルかそれ以上になっているはずです。

上記の額に加え、ハードウェアの膨大なコストと、運用し続けるためのリソース、またデータセンターの冷却も必要になってきます。 データセンターは何十億ガロンもの水を使用することもあり、また空調は電力を消費し、排ガスに寄与するため、導入を検討する組織は、この強力なツールのコストとメリットを評価せざるを得なくなります。 この初期費用と継続的なコストのため、LLMはほとんどの民間企業、学術機関、そして公共機関にとってすでに法外に高額なものとなっており、今後もモデルの規模が拡大し、またより強力になるに伴い、この傾向は続くことでしょう。

LLMの限界

特定の構造コンポーネントのお陰で、トランスフォーマーモデルは異なる入力間の関係を捕捉し、そして膨大な量のサンプルテキストのお陰で、最新LLMではテキストの大まかな意味を抽出し、テキストの各要素間の関係を非常にうまく追跡できるようになりました。 GPT-3のような生成モデルでは、さらに一歩進んで、質問と回答の両方で、こういった関係を追跡することを学んでいます。 その結果は、多くの場合で説得力があるものになっています。 ChatGPTに0と100の間の数字を求めたり、コレステロールがステロイドかどうかを質問したら、おそらく正しい答えが返ってくるでしょう。

しかし、科学研究のような専門的用途の場合、大規模言語モデルでは、大まかな意味以上の、微妙な差異がある具体的情報を理解するのに苦労する場合があります。 それはどうしてでしょうか。 まず、LLMは「Garbage In, Garbage Out(ゴミを入れたら、ゴミが出てくる」の問題に影響を受けずには済まないということが挙げられます。 次に、高品質のトレーニングデータがあっても、関連するトレーニング情報が不足している場合があります。

広範囲で、頻繁に記述されるトピックはLLMで的確に捕捉される一方、範囲が狭く専門的なトピックは、ほとんどの場合不足しており、そこではそれほど的確に処理されません。 例えば、大規模言語モデルが適切な抽象レベルに達した結果、あるものがステロイド分子であるかを判断できるようになったとします。 同族の2種のステロイド分子を区別することさえできます。しかしどちらかが非常に有毒で、どちらかがそうでないかを一貫して認識することはできません。 大規模言語モデルでそれが区別できるかどうかは、トレーニングに使われたデータと、正しい情報が認識され「記憶」されたかどうかに依存します。 正解が、間違った情報や矛盾する情報の山に隠されていたら、モデルはそれを導き出す方法はないのです。

データの量を増やし、よりクリーンなデータを用い、そしてより大きいモデル使えば、問題が解決すると反論する人もいるかもしれません。 それは正しいかもしれません。しかし、生成LLMに0から100の間の乱数を求めた場合どうなるでしょうか。 回答が実際に乱数であると確信できるでしょうか。 この質問に答えるには、語彙意味論や記憶された事実を超え、LLMを超え、AIエージェントまで行く必要があります。 そうすればエージェントは、検証された手続きを使って実行可能なコードを構築し、それを別のプロセスに渡して実行させ、結果を処理してユーザーに回答を返すでしょう。

科学データに固有の課題

CASの科学者たちが理解しているとおり、科学データとはテキストだけよりも、はるかに複雑です。そして、ほとんどの問題は、1つか2つの質問だけでは表現しきれません。

科学の研究にAI主導のツールを使うときは、わたしたちは、どんな問題を解こうとしているのか、と自問する必要があります。 多くの問題は、言語または緩く構造化されたシーケンスを含むため、言語モデルは完璧に適合します。 しかし表データや分類データ、ナレッジグラフ、時系列データについてはどうでしょうか。 これらのデータは科学研究に必要です。しかしLLMでは必ずしもそれらを活用することはできません。 つまり、LLMだけでは分子研究のような用途に必要なレベルの具体性を提供できないということなのです。 代わりに、オーケストラがまとまった音を出すためには多数の楽器を必要とするように、科学ではまとまった結果を出すためにはAIツールボックスに複数のツールが必要なのです。

幅広さと深さを伴ったシステムアプローチ

LLM単独では科学研究に適していないとしたら、では何が良いのでしょうか。 それは、複数の種類のモデルを用いて特化した出力を生成させる、システムアプローチです。 言語モデルやニューラルネットワークを、従来の機械学習ツール、ナレッジグラフ、化学情報学、バイオインフォマティクス、さらにはTF-IDFなどの統計的手法と組み合わせて多層化することで、研究者はAI主導のプログラムにおいて、深くそしてニュアンスのある情報を含めることが可能になります。

こういったツールは、新薬分子の開発や新規化合物の創出などのタスクに必要とされる、具体的な結果を提供できます。 ナレッジグラフは、分子、反応、発表済みの論文、管理された概念など、既知のエンティティを確実に関連付けるグラウンドトゥルースとして機能するため、特に有意義です。理想的な使用事例では、「これは特定の種類の物質だ」と回答できるディープニューラルネットワークと、その正確性を検証するナレッジグラフを活用するものになります。 このようにして、科学研究に求められる信頼性の高い事実を得るのです。

この種のシステムアプローチは、本質的にはデータの信頼性を向上させるための事実確認や検証機能であり、専門的な用途で効果を発揮しています。 例えば、NVIDIAが最近リリースしたPrismerは、画像に関する質問に答えたり、画像のキャプションを提供したりするために設計された、ビジョン言語モデルです。 このモデルは、複数の小さなサブモデルをトレーニングする Mixture of Experts アプローチを採用しています。 このモデルがもたらす知識の深さのお陰で、大規模なトレーニングなしで質の高い結果を得ることができました。10倍から20倍のデータでトレーニングされたモデルに匹敵する性能を発揮しています。

Googleも同様のアプローチに取り組んでおり、そこでは汎用の「教師」言語モデルから知識を抽出して、より小さな「生徒」モデルに知識を与えています。 生徒モデルは、より深い知識を有するため、大規模モデルよりも優れた情報を提示します。7.7億のパラメータでトレーニングされた生徒モデルは、ある特殊な推論タスクにおいて、5,400億のパラメータを持つ教師モデルを上回りました。 より小規模のモデルはトレーニングに時間がかかる一方、コストが安く高速に実行できるため、その継続的な効率の向上に価値があります。

科学研究の改善

システムアプローチのもうひとつの成功例は、CASで私と同僚が開発したPaSE(特許類似性エンジン)です。これは、CAS STNextCAS SciFinderのユニークな機能を支えています。 このモデルは、ブラジルの特許庁である、ブラジル国立工業所有権機関(INPI)との共同研究の一環として構築されました。 調査員が手つかずの特許バックログに対処できるよう、膨大な情報を数分で処理できるように設計されたものです。

このソリューションには、GPTファミリーと同じ重要な機械学習技術を使用する言語モデルが含まれており、それにナレッジグラフや化学情報学、そして従来の情報検索統計手法など、追加の学習タイプのレイヤーが重ねられています。 PaSEは、CAS コンテンツコレクションTMに含まれる特許や学術論文のフルテキストなど、世界中の科学情報を使ってモデルをトレーニングすることにより、手作業で検索するよりも50%速く「先行技術」を見つけるために必要な深さと幅広さを実現しました。

特許庁で特に難しいのは、何かが存在しないことを証明することです。 「証拠が無いということは無いことの証拠にはならない」という言葉を思い浮かべればわかります。CASのデータサイエンティストは、特許サーチャーの専門家、ブラジルINPIチーム、および独自のAIツールの組み合わせと連携してモデルをトレーニングおよび最適化した結果、手作業での検索を40%減らして先行技術を特定することができたのです。 この性能、そして特許バックログが減ったことにより、2021年にPatent Information Users GroupStu Kaback Business Impact Awardを受賞しました。

科学における大規模言語モデルの前途

上記の経験からもわかるように、LLMは今後も科学研究において重要な役割を持ち続けるでしょう。しかし、一般に信じられているのとは逆に、このツールはあらゆる問題や疑問に対する万能薬ではありません。

私は、家の中の散らかった部屋、例えばクローゼットや屋根裏部屋の整理整頓という観点から、これらのモデルを考えると分かりやすいと思っています。 そういった部屋にあるものの整理方法は、人によってさまざまです。 すべてを色で分類して整理する人もいれば、貴重品をひとまとめにする人、または機能別に整理する人などもいるでしょう。 どの方法も間違ってはいません。しかしそれは自分が望む、あるいは必要とする整理の方法ではないかもしれません。 これは基本的にLLMの問題を表しています。LLMがある特定の方法で情報を整理しても、それは科学者や研究者が求める方法ではないかもしれないわけです。

タンパク質配列、特許情報、化学構造など、ユーザーが特定の結果を必要とする専門的な用途の場合、その特定の方法で情報を整理して処理するように、AI搭載モデルをトレーニングする必要があります。 最適なトレーニングと予測を行うには、ユーザーが望む方法でデータ、結果、変数を整理する必要があります。

そのデータの影響、その表現、科学における予測を向上させているモデルについてより詳しく知るには、CAS Custom Services のケーススタディをお読みください。 AIと化学において新たに登場している状勢について詳しく知りたい方は、 AIが化学にもたらすチャンスに関する最新のホワイトペーパーや、AIがいかに世界中の特許事務所の生産性を向上させるかを説明したリソースをご覧ください。