AIと機械学習モデルは逆合成プランニングのサポートとなっていますが、これまでに学んだトレーニングデータにより限界があります。この記事を参考に、鍵となる合成プランニングの取り組みを最適化するために、必要な多様性と品質を備えたデータを用意することで新たな予測を生成する方法についてご確認ください。
既存の薬の分子を進化させることは、創薬イノベーションの礎です。しかし将来的には、構造的に新しい低分子のほうが、現在の薬物の応用よりも価値のある治療薬になる可能性があります。2020年に承認された低分子薬の65%は構造的に新しいものでした。これらの分子は、FDAによって画期的治療薬に指定される可能性が2.5倍、そして発売後5年以内に大ヒットする薬になる可能性が2倍になっています。
しかし、新しい分子を合成するのは容易なことではありません。逆合成予測ツールは、新しいアプローチの設計や生産効率の最適化のために不可欠なものとなっています。これらのツールは、世界中の最新の研究成果を体系的に活用することで、より迅速な市場投入を可能にします。また、価格やサプライヤーなど、特定の制約を設けて分子を構築することで、開発パイプライン全体のコスト削減を実現することもできます。
化学合成でのAIの活用が成功するかどうかは、データの質と多様性次第です。それらが欠けていれば、予測精度が妨げられます。このことは、バイエル社が新規低分子の逆合成に対するAI利用を最適化しようと試みていた、最近の共同研究でも実証されています。既存のトレーニングセットに当社の高品質で多様な反応データを追加することで、希少な反応クラスの予測精度を32%向上させることに成功しました。
多様で正確なデータがAIモデルを成功に導く
化学合成プランニングでは、可能な限り多様で正確な合成経路のセットを作成することが目標です。ただし、AIを適用して得られる質は、その基になるデータの質次第です。予測力は、学習データの質、多様性、精度に依存します。特に重要なのはデータの多様性です。なぜなら、学習データが一般的な化学物質だけでなく、散在する化学物質の下位領域を示さない場合、AIの適用では範囲や新規性において限られた結果しか得られないからです。

CAS Reactionsは多様な反応データを提供します。それにより、合成プランニングの予測力が大きく向上します。世界中の特許、雑誌、科学出版物から最も強固、そしてきめ細かい化学情報を収録したこのコレクションは、この10年間で2倍以上の規模になりました。このキュレーションは機械学習と連動しながら現在も継続中で、今後もAI合成プランニングを強化し、充実させていきます。
バイエルとCASがAIを最大限に活用し、より効率的な創薬を目指して協業
バイエルとCASの協力のもと、希少な反応型をターゲットにして広範囲な機械学習のトレーニングセットをCASデータで強化することにより、創薬AIモデルの予測力を飛躍的に向上させることができました。
このモデルは、予測された反応段階が成功する可能性が高いかどうかを推定する、ニューラルネットワークで構成される実現可能性フィルターで構成されています。ネットワークは、既知の反応のデータセットと、主に理論的に失敗した反応のデータセットを使用してトレーニングを行いました。また、CASデータを用いて追加のトレーニングデータセットを作成し、実現可能性フィルターの予測能力を定量化しました。CASの反応情報を追加することで、希少な反応クラスの精度が16%から48%、つまり32%も向上しました。
実現可能性フィルターでの精度が向上すると、パイプラインで相乗効果をもたらし、使用可能な反応が得られる確率も向上します。この予測力の向上により、これまで予測モデルでは得られなかった「稀な」カテゴリーも利用可能になり、低分子創薬で今まで陰に隠れていた部分に光を当てるような、新たな結果がもたらされます。
この研究は、CAS コンテンツのコレクションTMから科学者が収集した中規模の反応セットでさえ、合成計画ツールの予測力を大幅に向上できることを実証しています。今回は少数の反応に対して見られた効果ですが、すべてのテンプレートにおいて強力かつ高品質で多様なデータを用いて基本トレーニングセットをさらに増強すれば、より高い予測力が得られることが示唆されます。この見事なコンセプトの実証は、特に新規の低分子薬の標的をより効率的に発見する上で、幅広い応用が期待されます。
- Pistoia Alliance Virtual Conferenceで行われた、CASのユガル・シャルマ博士とバイエル社のMartin Villalba博士のプレゼンテーションはこちらでご覧いただけます
- ホワイトペーパーをダウンロード:新しい化学の予測 - 高品質なトレーニングデータがもたらす反応結果の予測への影響
CASが貴組織の成果を最適化
CAS Custom ServicesSMでは、貴組織の機械学習を支援するトレーニングデータの構築を承っております。貴組織の要件など、予測精度向上に関する詳細については、弊社チームにお問い合わせください。
