今日の急速に進化する創薬環境において、予測モデルは、生物学的活性、薬物と標的の相互作用などをシミュレーションおよび予測することにより、ワークフローを加速するための重要なツールとして浮上しています。これらのモデルの有用性は、それらが構築されるデータの品質と管理に大きく依存します。この技術革命の最前線に立つのはCASであり、CAS BioFinder Discovery Platform™は高度な予測モデルを搭載しています。これらのモデルの精度が創薬科学者にとって真の洞察にどのようにつながるのかを理解するために、ライフサイエンス部門ディレクターのAdam Sanford博士とCAS BioFinder™シニアプロダクトマネージャーのOrr Ravitz博士に話を聞き、CASをこの分野のリーダーたらしめている厳格なデータ管理戦略について詳しく伺いました。
CAS:予測モデルをサポートするためのデータ統合、正規化、およびハーモナイゼーションに対するCASのアプローチとはどのようなものですか?
データ管理に関して、私たちはいくつかの核となる理念を持っています。1つ目は包括性です。可能な限り多くの関連情報源を網羅し、多様なデータという強固な基盤の上にモデルを構築するため、広く情報を収集します。しかし重要なのは単にデータを収集することではなく、そのデータが実際に活用可能であることを保証することです。ここで、人間によるキュレーションと調整のプロセスが重要な役割を果たします。このプロセスは平凡あるいは過剰に思えるかもしれませんが、AIによる抽出だけでは達成不可能な精度を実現するモデル構築には不可欠であると考えています。
データを取り込む際、私たちは3つの重要な領域に重点を置いています。まず、特定の種類のエンティティ(低分子化合物、タンパク質、経路など)である場合、それを当社のオーソリティ構成に照合します。これは、同じエンティティについて存在する多様な表記を一つの識別子やコンポーネントに統合する作業です。公開された文献では、同じタンパク質や化学構造が何百通りもの形で表記されるのは一般的です。注意を怠ると、一見すると多数の独立した観測結果のように見えるデータが、実際には同一エンティティであるためクラスター化できる場合があります。当社のプロセスでは、こうした異なるエンティティを単一のクラスターに統合します。
文献におけるエンティティの曖昧さの解消は、モデルの精度を確保する上で極めて重要です。例えば、生物学では、タンパク質はさまざまな方法で呼ばれることがあり、これら全ての名称や形態を考慮しなければ、研究者が大量のデータを見逃す原因となります。化学分野でも同様の課題が存在しますが、当社はこの分野で専門的な知見を有しています。長年にわたり化学データを扱ってきた経験から得た専門知識を活用し、生物学的エンティティの曖昧性を高精度で解消することに成功しています。
重要なのはエンティティを正しく識別することだけではなく、実験の文脈を正しく捉え、使用された単位や手法を含む実際の測定値を効果的に統一することでもあります。
私たちはこれらの基盤となる権威データを構築するために多大な労力を費やしています。例えば、文献中でタンパク質が言及される場合、その名称や識別子は種別や修飾によって様々に異なります。当社のアプローチでは、これら全てのバリエーションをシステム内で単一かつ一貫した識別子に統合します。これにより、予測の精度を高く維持でき、これは創薬において極めて重要な要素となっています。
当社のプロセスにおけるもう一つの重要な側面は、情報の正規化です。これは完全に自動化された作業ではなく、人間が深く関与するプロセスです。例えば、データをインデックス化する際、実際の科学者が文献に記載された観測結果を確認し、それが数値的観測なのか、活性の測定なのか、あるいは別の種類の情報なのかを判断します。その後、このデータを標準化された単位体系に調整します。これは、すべてのデータが正確で、他の内容との一貫性が保たれていることを確認するための、非常に入念なプロセスです。
この厳格なデータ管理手法こそが、CASを同分野の他社と差別化している要素です。この複雑性を処理するためのインフラ全体を構築しており、このインフラこそが当社の予測モデルを非常に効果的にしているのです。
CAS:そのアプローチは、どのようにして創薬研究者のためにモデルの有用性を高めるのですか?
当社のモデルは、私たちが深く信頼するデータ基盤の上に構築されており、この信頼性はより正確な予測に直接つながります。私たちは、公開されているデータを使用してモデルのテストを開始しました。CASが収集したコンテンツに移行すると、予測の精度が大幅に向上しました。また、生物固有で特定の作用機序に焦点を当てた、より詳細なモデルを作成できることもわかりました。これは、データが正確であることを保証するだけでなく、データが取得されたコンテキストも捕捉するためです。
CAS BioFinderでは、情報科学主導のモデルを採用しています。私たちはデータ全体のパターンを調べるため、規模が非常に重要です。データが増えれば増えるほど、私たちのモデルのパフォーマンスは向上します。私たちは「3つの要素」—適切な分子、適切な標的、適切な測定—から開始し、そこから構築していきます。私たちはこれらの3つの要素の品質に真摯に取り組んでいるため、当社のモデルは本質的に信頼性が高くなっています。
CAS BioFinderは、それぞれ独自の手法を持つ5つの異なる予測モデル群を活用しています。一部のモデルは構造ベースの特性が強く、当社の化学データを非常に効果的に活用しますが、他のモデルは異なるデータ特性に焦点を当てています。アンサンブルアプローチを採用し、各モデルが独自の視点から予測を行うことで、これらの予測を統合してコンセンサスを形成します。このコンセンサスは、多くの場合、単一のモデルが単独で達成できる予測精度よりも高い信頼度を提供します。
たとえば、リガンドから標的への活性予測は、CAS BioFinderの中心的な機能です。新しい化合物であろうと、既存のデータベース内のものであろうと、明示的な実験データが利用可能でなくても、私たちのモデルはリガンドが標的と相互作用する可能性を予測できます。この機能は、新しい化合物の潜在的な活性を理解しようとしている医薬品化学者にとって非常に価値があります。
さらに、代謝プロファイル(体が化合物をどのように処理するか)を予測するモデルもあります。候補薬剤の代謝経路を理解することは、その安全性と有効性を評価する上で非常に重要です。これらの予測は実験的に特定された代謝物に基づいているため、特に信頼性が高くなっています。
また、お客様が当社のデータ収集で独自のデータを増強できるようにすることも目指しています。多くの製薬企業は、社内で蓄積した化学データの豊富な履歴を有しています。そこにCASのデータを加えることで、企業独自のニーズに特化した予測モデルを構築することが可能になります。これは、従来の専門的な知見を活かしつつ、CASデータの幅広さと深さによる恩恵も同時に享受できる非常に強力な機能です。
CAS:モデルの開発で直面した最大の課題は何ですか?
先に述べたオーソリティ構成の作成は、多くの人間の介入を必要とする骨の折れるプロセスです。これは完全に自動化できるものではありません。特に複雑な化学的および生物学的情報を取り扱う場合はなおさらです。このプロセスは、すべてが正しいことを確認するために必要な人的投資を考慮すると、特に非常に困難になる可能性があります。
もう一つの重要な課題は、文献におけるデータの提示方法のばらつきです。たとえば特許では、データが表や補足情報の中に埋もれていたり、文書全体に散在していることがあります。機械だけでは、これらすべての要素を正しく組み立てることはできません。人間のキュレーターが介入して、データが正確に抽出され、正規化されるようにする必要があります。これは一度限りの作業ではなく、細部に常に注意を払う必要がある継続的な取り組みです。
この複雑さを示す最近の経験談を一つご紹介できます。1980年代後半に承認された既知の薬剤の測定値を調べた際、データは数年前の論文を参照しており、この構造が承認される前の早い段階で言及されているのを見て驚きました。よく見ると、その出版物にはいくつかの構造が含まれていましたが、問題の薬とまったく同じものはありませんでした。詳細を調べ、論文内で示された置換基の説明まで確認して、ようやく正しい構造に辿り着くことができました。このレベルの複雑さは現在の機械が処理できる範囲を超えており、データ管理プロセスにおける人間の専門知識の重要性を浮き彫りにしています。
私たちは「エッジケースマシン」を作ったと冗談を言っています。なぜなら、私たちはこの種の複雑な問題を扱うことが多いからです。これらのエッジケースはデータのごく一部を占めるかもしれませんが、モデルの精度に大きな影響を与える可能性があります。これらのケースが正しく処理されることを確実にすることは、予測モデルの全体的な成功にとって重要です。
CAS:出版物やデータが絶えず登場する中で、CASはどのようにしてこれらのモデルを最新の状態に保っているのでしょうか?
当初、モデル構築時には新規データを組み込む際、大規模なバッチ処理で更新していました。現在はモデルの再トレーニングをより頻繁に実施しており、場合によっては隔週で行っています。これにより、ユーザーは常に最新の予測で作業できるようになります。また、新規データを統合するパイプラインを確立しており、その効率性は継続的に向上しています。
私たちは、新しいデータが公開されてから数週間以内にモデルへ組み込むことを目指しています。以前は、データ環境に大きな変化があった場合、例えば新しいターゲットについて十分なデータが揃い予測モデルを構築できるようになった場合のみ、モデルを学習していました。しかし近年は、データモデリングや精度に対する期待が急速に高まっており、創薬研究者のニーズに応えるため、モデルの監視と再トレーニングを頻繁に行うようになっています。
CAS:CAS BioFinder™と予測モデルについて、特に期待していることはありますか?
当社のデータとソリューションは文字通り毎日進化し続けています。しかし、2024年10月現在、タンパク質ベースの治療法やPROTACなどのより高度な治療法を予測フレームワークに組み込む方法など、いくつかの分野を積極的に模索しています。これらの領域は発展途上であり、モデルが達成可能な限界を押し広げる可能性に期待を寄せています。これには低分子とは異なるモデリング手法を必要とする抗体薬物複合体などの領域も含まれます。また、業界がより複雑な治療法へと移行する中で重要性を増している毒性予測にも注目しています。
もう一つの注目すべき分野は、予測モデリングにおける知識グラフの活用です。経路情報やバイオマーカーなど、私たちが提供する生物学的コンテキストを拡張することで、これらの関係性を活用して、より洗練されたモデルを作成できます。これにより、新たな薬物-標的相互作用の予測や、疾患の新しいバイオマーカーの同定が可能になります。また、これらの知識グラフを構築するためのさまざまな手法の実験も行っており、これによりさらに強力な予測能力を提供できるようになります。
CAS:創薬におけるこの予測モデリングアプローチの独自性はどのような点ですか?
CAS を真に際立たせているものの 1 つは、透明性と柔軟性への取り組みです。私たちは、ユーザーごとに計算手法の好みが異なることを理解しているため、CAS BioFinder Discovery Platformを単一のアプリケーションとしてではなく設計しています。ユーザーは当社のコーパスからデータをダウンロードし、自社のデータと組み合わせて、好みの手法で利用することが可能です。この柔軟性こそが、クライアントが当社のコンテンツと機能を最大限に活用するために不可欠な要素となっています。
CAS BioFinder™のすべての観測データは文献の出典と関連付けられており、ユーザーはそのデータを元の出典まで遡ることができます。この透明性は、ユーザーとの信頼関係を築くために不可欠です。私たちは、ユーザーにただモデルを盲信するよう求めるのではなく、彼ら自身がデータの検証を行えるツールを提供しています。このレベルの透明性と厳密さが、予測モデリングの課題に取り組む上でCASを最適な組織たらしめています。
CAS:創薬プロセスにおいて何かを変えられる魔法の杖があるとしたら、何を変えますか?
公開されている文献には、肯定的な結果に偏りがあることが知られています。しかし、標的に対して活性を示さなかった分子のようなネガティブデータも、正確なモデルを構築する上で同様に価値があります。私たちの機械学習手法は、ネガティブデータをより多く取り入れられれば、著しく性能向上が期待できます。しかし、この問題は業界全体で依然として大きな課題となっており、学術界や産業界におけるネガティブデータの公開を促進するためのインセンティブがもっと増えることが望まれます。
多くの人がAIや機械学習を、最も困難な創薬の問題を解決する万能薬と見なしているようですが、根本的な変革なしにそれが実現する可能性は極めて低いでしょう。これらの技術は、堅固なデータ基盤がなければ何度も失敗を繰り返します。この点を繰り返し強調しているのは、それが極めて重要だからであり、エネルギーを最も重要な部分である「データそのもの」に集中させるべきです。
業界での過去の経験を振り返ると、基礎となるデータ構造と知識管理の重要性をもっと重視しておけばよかったと思います。今日、データが実験と予測を成功させる基盤であることは広く認識されていますが、多くの組織はまだこの分野に十分な投資を行っていません。彼らはそれを問題として認識していますが、それを正しく行うためにどれだけのエネルギーとリソースが必要なのか、常に把握しているわけではありません。CASは、このような複雑さに対応できるように設計されており、投資の効果を実感しています。