天然物創薬でAIが果たす新しい役割

Krittika Ralhan , Scientist, ACS International India Pvt. Ltd.

genetic engineering and dna microarray

天然物とは、植物、動物、微生物、その他自然界を構成するものによって生産される化合物や物質、または混合物のことです。 何千年もの間、天然物はさまざまな病気を治すために使われてきました。そして現代医学が登場するまでは、人類にとって薬剤はそれしかありませんでした。

世界保健機関 (WHO) によれば、現在の世界人口の約80%が伝統医学を利用していると推定されています。 最近の50年間でも、天然物やその誘導体がまだ新開発の素材として使われていました。しかし、そういった天然物を大規模利用するには、不十分なバイオアベイラビリティと複雑な化学合成などの理由から、大きな課題が残っています。

天然物を研究するにあたり、研究者は強力な新しいツールを活用できるようになってきています。これも、高度なコンピューティングやより優れたデータストレージ設備、洗練された自然言語処理技術、そして機械学習 (ML) に基づいた機能などが登場したことによるものです。 人工知能 (AI) は新しい進歩を可能にしています。そして医学でも、自然がもたらす恵みを、人間の病気を治すために活用し続けることができるようになっています。

AI主導の研究における最近の進展

今回、人の手で収集・精選された公表済み科学情報のコレクションとしては世界最大であるCAS コンテンツコレクションTMのデータを調査して、天然物分野におけるAIの最近の出版状況(2010年以降)をマッピングしました。 そして発表済みの世界中の科学情報を俯瞰したところ、AIは構造予測やデータ統合など、天然物の分野で最近大きな進歩を遂げており、創薬を加速させていることがわかりました。

2010年以降で、60万件を超える科学出版物(論文と特許出版物を含む)が天然物の研究に関して見つかりました。 この分野では論文が圧倒的に多く、論文数に対する特許の比率はここ数年で減少しています。これは、商品よりも学術研究への関心が高まっていることを示しています。 ではその中で、AIはどのような位置づけになっているのでしょうか。 AIや機械学習アルゴリズムそしてニューラルネットワークといった研究が、天然物研究のどんな分野に影響をもたらしているのか、以下にまとめます。

図1、論文と特許のグラフ
図1. 天然物研究の年間論文発表件数と特許件数 (それぞれ青と黄色の棒で示す)、2010年~2022年。

 

  • 化合物・ターゲットの同定 - AIは、機械学習アルゴリズムの力を借りながら分光学的データを分析することで、天然物中に存在する化合物を同定し、特性評価することができます。 これにより、生物活性分子の同定と単離のプロセスが迅速化されます。 例えば、Nucleic Acids Research誌に掲載された引用度の高いある論文では、NRPSpredictor2というウェブサーバーについて言及しています。これは、機械学習の手法を用いることでバクテリアの天然物生合成酵素の基質特異性予測を改善させているものです。 植物や微生物は、生合成遺伝子クラスター(BGC)という遺伝子を用いることで、二次代謝産物として天然物を生産しています。 こういった代謝産物をコードする可能性のあるBCGを予測するために、AIが用いられています。
  • 創薬 - AIとそのサブ分野である機械学習などは、 創薬パイプラインのさまざまな段階で応用されています。 例えば、天然物データベースの仮想スクリーニングや医薬品候補の予測、そして薬理学的特性の評価などに、AIモデルが使用されています。 こういった取り組みの鍵となるのがディープニューラルネットワーク (DNN)です。そしてAIベースの生成モデルは、薬剤候補を予測し、実験的に検証する化合物の数を絞り込むことで、創薬パイプラインを加速させることができます。
  • 生物活性の予測 - 機械学習モデルは、定量的構造活性相関 (QSA/PR) モデルと呼ばれる、ディープニューラルネットワークベースの3Dファーマコフォアのマッチング手法を用いて、化学構造から天然物の生物活性を予測し、ランク付けすることができます。 これらのモデルは、特定の治療可能性がある化合物を同定するのに役立ちます。 最近の研究では、Acinetobacter baumanniiに対する抗生物質のin silico予測に機械学習ベースの手法が使用されました。そして最終的にはA.baumanniiに対する殺菌作用があるAbaucinの発見につながったのです。 別の研究では、細菌と天然物と、医薬品に関して学習したデータセットを用いたAIベースの手法により、Halicinの抗生物質としての役割が発見されています。
  • 抽出プロセスの最適化 - AIは、天然物素材から生物活性化合物を最大収率で得るにあたり、その抽出パラメーターを最適化するのに役に立ちます。 それによって薬剤候補の試験に必要な時間とリソースが削減されます。
  • データの統合と分析 - AIによって、ゲノミクス、プロテオミクス、メタボロミクスの研究から得られる膨大な量のデータを統合し、そして解析することが容易になります。 このホリスティックなアプローチにより、自然システム内の複雑な相互作用をより深く理解することができるようになります。
  • シナジーの予測AIツールは、異なった化合物間の相乗的相互作用を予測できるため、天然物を用いた併用療法を処方するにあたって役に立ちます。 特に、複雑な疾患に対処する上で有用になります。
  • 毒性予測 - AIモデルは、天然化合物の潜在毒性を予測できるため、その安全性を確認したうえで、それを医薬品や健康補助食品として開発することができます。
図2、データ統合解析
図2. 天然物研究におけるAIとMLのさまざまな用途。

AIと天然物研究に対する関心は近年急速に高まっています。論文と特許は650件が発表されているほか、それに伴って特許対論文の比率も上昇していることから、商業的な関心も高まっていることが示されています。 出版件数としては比較的少ないとはいえ、2010年から2022年まで着実に増加しており、2020年以降は急増しています(図3)。 文献数は中国が圧倒的に多く、次いで米国、インドの順になっています。これは、中国の伝統医学において天然物が幅広く使用されていること、そして中国におけるAI関連能力の発展を目的とした中国新世代人工知能発展計画(2015-2030)が導入されたことと相関関係があります。

世界的にも関心は高まっており、ブラジル、韓国、ドイツ、英国、ポルトガル、ポーランドその他などでも、このテーマに関する文献が発表されています。 研究されている創薬も、広範囲にわたるものになっています。

創薬でのAIの可能性

AIは、天然物の同定、分類、活性の予測などにおいて役割が期待できます。 植物は、アルカロイドやフラボノイドなど、抗ウイルス性、抗がん性、抗菌性、抗真菌性を持つさまざまな生物活性二次代謝産物の供給源として知られています。 AIを活用したプログラムおよび技術は、天然物のこういった特性を従来より高速に評価・分析し、そして得られたデータを効率的に同化できます。その結果、生物学的活性を予測し、創薬プロセスを加速させることができます。

たとえば、さまざまな菌類(キノコ)が、今までその抗がん性免疫の調整抗神経変性抗炎症、そして抗酸化などの特性について研究されてきました。 そこでAIやMLベースのアルゴリズムを使うことにより、新種のキノコを分類し、さらに画像認識を使ってその天然物を同定し、真菌から天然物を抽出するための最適な戦略を考案し、さまざまなキノコやその他真菌種の新たな用途や特性をマッピングしたりすることができます(図5)。

図3、論文発表件数
図3. 天然物研究のAI関連分野での年間論文件数と特許文献数(それぞれ青と黄色の棒で示す)、2010年~2022年。 (差し込み図は、この分野における過去5年間(2018~2022年)の特許対論文の比率の伸びを示す。)

AIと天然物の現在の状勢

現在、天然物に対して最も一般的にAIが活用されているのは抗腫瘍剤(図4A)においてであり、次いで抗ウイルス剤、抗菌剤となっています。 鎮痛剤(痛みを緩和する薬)は、応用全般の上位で占める割合はわずかであるものの(2%)、2021年から2022年にかけて文献数は5倍に増加しています(図4B)。 その他の応用カテゴリで急成長を示しているのは、抗炎症剤、抗糖尿病剤、抗神経変性剤、抗マラリア剤です。 興味深いことに、抗菌剤に関連した文書の割合は2021年から2022年にかけて減少しており、この分野に対する科学界の関心が低下していることを示しています。

図4Aと図4B
図4. A. 天然物研究における上位AI応用を表すドーナツグラフ。 B. ここ数年 (2010年~2022年) で最も応用が多かったものにおけるAIの成長。
図5、植物の属の上位
図5. 天然物研究でAIが活用されている(A)植物と(B)菌類のそれぞれの属の上位。

CAS コンテンツコレクションを活用して物質データ解析を行ったところ、2010~2022年の天然物研究での学術論文や特許文献において、AIと共起する物質は、約5,000種類見つかりました(図6A)。 物質クラスの詳細な調査の結果、有機および無機の低分子、タンパク質・ペプチドの配列、ポリマー、元素、そして塩が最も重要であることが示唆されました。 有機・無機の低分子に分類される物質数は、次に分類される物質クラスのタンパク質やペプチド配列、そして元素の約60倍になっています。

有機・無機の低分子の中でも、AI利用と最も高い共起率を示しているのは、ケルセチンでした。 ケルセチンは強力な抗酸化作用と抗炎症作用を持つ、植物性生理活性フラバノールです。 がんAIDS高血圧糖尿病の治療に対して可能性を示しています。 ケルセチンは、(AIと高い共起性を示すもうひとつの低分子化合物である)カエンフェロールとともに、COVID-19ウイルスに対して効果があることが最近示されました。 AIは、植物素材からケルセチンを抽出するためのモデル設計の最適化や、新型ケルセチン類似体を設計したり、その抗酸化作用抗がん作用を試験するためのモデルを作成するのにも活用されています。

タンパク質とペプチド配列を詳細に調査した結果、AIとの共起が最も多かったのはバンコマイシンで、これは特に最適な投与量レベルを特定するための用量滴定などの研究を設計する際に、顕著になっています。 同様に、腎移植モデルでシクロスポリン濃度をモデル化する際にもML手法が使用されています。 ポリマーのカテゴリーでは、キトサンがAIとの共起率が最も高く、これはAIを使ったキトサンナノ粒子の合成と試験に焦点を当てた、抗菌用途のための研究と相関しています。

図6、関連物質の分布
図6. (A) CAS コンテンツコレクションにおける、天然物研究の中でAIに関連する物質の分布、2010~2022年。 対応ヒートマップの表は、そのクラスで共起している物質の上位10を記したもの。 (B) AIに関連した物質 (Aパネルで赤の星印が付いた物質) の経年増加 (2010年以降)。

今後の展望と機会

この10年間、創薬におけるAIの活用は、革命的なものでした。そしてそれは、天然物の分野でも例外ではありません。 AIは、天然物に関する情報をデジタル化するためのものから、生物活性予測をするためのMLベースのアルゴリズムへ、さらに最近の研究に見られるように、ゲノムマイニングのためや天然物からインスパイアされた分子を設計するためにニューラルネットワークを活用するまでに発展してきました。 また、広範な医学的表現を含むアルゴリズムに基づいたBioNLPなどAIのサブ分野では、科学論文から情報を抽出して、生物活性のある新しい植物や天然物の供給源を特定するために使うことさえも可能になっています。

AIは、天然物研究にパラダイムシフトをもたらしました。しかし、まだ課題も残っています。 そのひとつが、同じ化合物や分子が繰り返し発見されるdereplicationです。 この問題は、AIを活用した高度なデータベースやツールを使うことで軽減できる可能性があります。 天然物のもうひとつの課題として、ターゲットになるタンパク質がわからないまま発見されることが多いということが挙げられます。 そういった場合も、ターゲットを予測するのにAIを活用することができます。

天然物研究とAIとの統合は、まだ初期段階にすぎません。そのため、新たな天然物を同定・分類するためには、予測モデルを十分にトレーニングすることが重要です。 この分野での研究が進むにしたがい、天然物研究の各段階でAIがより広範に活用されることが、出版物の傾向から示されています。 天然物の供給源から新薬分子を発見する機会は今後も増え続け、医薬品開発パイプライン、そして究極的には患者が、その恩恵を受けることになるでしょう。 関連記事として、ブラジルでのNuBBEデータベースの拡張に関する最近の当社の取り組み、またより良いデータがもたらすAIの予測改善についても、あわせてお読みください。