ありがとうございます。「ブラジルの化学業界におけるCAS登録番号の不一致を解決」

CAS SciFinder Discovery Platformは、CAS登録番号の不一致の解決、コンプライアンスの確保、効率的な化学関連の業務を可能にすることで、ブラジル企業が規制面の課題に取り組むのを支援した事例をご紹介します。

化学業界におけるデジタルトランスフォーメーション - サステナブルな将来へのステップ

Jennifer Sexton , Director/CAS Custom Services

Digital data wave and network abstract background

化学は現在の数多くの必需品をもたらしており、研究やイノベーション、そして経済成長を推進する基盤となっている一方、気候変動の主な原因でもあります。

有害な物質や温室効果ガスの排出、または適切な廃棄物管理の欠如といった事はすべて、不適切な化学の慣行に起因しており、それを全面的に改革しなければ、新しい持続可能性の目標を達成することはできません。

近年、サステナブルなソリューションを加速させるデジタル技術や強力な認知ツールへの関心が高まっています。 より良いデータ管理から資源利用の改善まで、デジタルトランスフォーメーションは、化学プロセスを再考・最適化することで産業界に力を与え、環境への影響を軽減させることができます。 しかしながら、今後10年間の予測では、デジタルトランスフォーメーションに取り組む企業の成功確率はわずか30%に留まるとされています。

誤った助言によるデジタル化戦略は、本来は賢明であった投資をたちまち失望へと変えてしまいます。 一方、デジタル技術やその可能性の範囲について十分に理解し、そして戦略的な導入のためのパートナーがいれば、新たなチャンスを明らかにし、市場における競争力を大幅に高めながら持続可能性の目標を達成しやすくなります。

デジタル化とナレッジマネジメント - 強固なデータ基盤の構築

初期段階の研究開発から市販後調査に至るまで、化学業界では継続的に膨大な量のデータが生成・収集されています。 しかし、組織内および組織間において調和が欠如していると、貴重な情報が失われ、資源が浪費されてしまいます。 こういった非構造化データまたは「ダークデータ」は、保存されている全データの55%を占めると推定されており、これがこの分野の研究やイノベーションを大幅に遅らせています。

デジタル化することで、環境フットプリントを削減しながら、データやラボのワークフローを構造化することができます。 グローバルに取引されている木材の40%以上が製紙業界によるものである現状においては、デジタルナレッジマネジメントシステムによってデータの損失を防ぎ、森林の伐採を最小限に抑えることができます。

10年前、ネイチャー誌の “Scientists losing data at a rapid rate” という記事では、科学データの約80%が20年後には利用できなくなると報じられました。 幸いデジタルソリューションが台頭したことにより、研究者はレガシー科学データを有効活用し、データ駆動型イノベーションを生み出すための基盤として転換させることができるようになりました。

大手医療技術企業が、いかにして社内の研究開発データへのアクセスを向上させたか、その詳細はこのケーススタディをダウンロードしてお読みください。

イノベーションの機会を見極める - AI を活用したソリューションで化学プロセスを最適化する

今日、化学企業の80%以上が、持続可能性は収益の伸びと同程度に重要になっていると宣言しています。 よりサステナブルな選択肢を取り入れるために大幅に慣行を改革しているにもかかわらず、多くの化学ワークフローは、依然として有害な廃棄物や温室効果ガスを発生させる溶剤や化石燃料に依存しています。 各プロセスをもっと環境に優しい代替物質に置き換えるには、多くの時間と金銭的な投資を必要とする、長い道のりになります。 化学におけるデジタル化が進んできたおかげで、今や認知ツールは投資収益率(ROI)を高めながら、持続可能性とイノベーションへの近道を提供しています。

人工知能(AI)を活用した検索とアナリティクスなら、対象とする範囲と目的に合致した情報を効果的にピンポイントで見つけることができます。 予測モデルは、社内データベースを直接スクリーニングすることで、より優れた化学配合やサステナブルな製造ワークフロー、そして生産性向上のための正確な推奨を生成できます。 2022年には、企業の3分の2が持続可能性の目標に取り組むために、AI戦略を積極的に策定していると回答しています。

AIを活用したプロジェクトが増加するに従って、AIの精度を確保するためには、強固なデータ基盤と確固たるトレーニング戦略が必要になります。 多様性が欠如したデータや低品質なデータは、パフォーマンスのばらつきやモデルのドリフトを引き起こし、それによりAIの予測が影響を受け、投資の失敗につながります。 豊富なデータセットとキュレーションされたトレーニングセットがあれば、予測AIと機械学習モデルを検証して、次のブレークスルーを特定できるようになります。

高品質のトレーニングデータと機械学習が新しい化学をどのように支えるか、詳しく知るには、こちらのケーススタディをダウンロードしてください。

サステナブルな化学への移行 - 変化を続ける法規制要件への対応

配合から廃棄物管理に至るまで、化学物質のライフサイクルは厳格なガイドラインの対象となっており、また、多くの場合、国や地域間で整合性もありません。 広範な法規制の状勢に加え、ガイドラインも、変化する科学知識や技術の進歩、または社会の期待に合わせて、見直しや更新が頻繁に行われます。

その複雑で変容し続ける規制の性質上、持続可能性を推進する規制要求に対応することは、化学企業にとって大きな課題となっています。 絶えず変化し、散在するフレームワークに対応していくため、多くの化学企業は、財務的に負担があるにもかかわらず、専門の規制対応部門を設置しています。 的確な社内プロセスを導入すれば、コストとリスクを大幅に軽減しながら、変化する環境政策へのコンプライアンスを確実にすることが可能になります。

規制の順守には、一般的に包括的な化学物質の記録、詳細な製造工程、最新の安全データシートなど、広範な文書化が必要になります。 こういった要件の収集には、異なる方法論で集められた膨大なデータセットを、さまざまな部門から参照する必要があります。 このプロセスは難しい作業で時間もかかるため、研究に焦点を合わせることができなくなります。

標準化されたデータ管理システムによって、包括的で正確な監査証跡を確立するようにすれば、楽になります。 化学文書に加えられた変更は、簡単に検索できるデータベースを使って記録・追跡すれば、規制基準や環境方針が変化しても、知識を構造化し、アクセスしやすくし、そして最新状態を維持することができるようになります。

化学業界におけるデジタルトランスフォーメーションは、より環境に優しい将来のための礎

持続可能性に対する意識の高まりにより、化学業界はプロセスを見直し、環境への影響を最小限に抑え、そして資源を節約するために、環境に優しい代替策を模索しています。

最適化されたデータ管理システム、検証済みのAIモデル、そして多機能アルゴリズムを通じて、デジタルトランスフォーメーションはビジネスを大きく変革するプロセスになります。これにより、化学企業には、日々の業務に革新的でサステナブルな慣行を取り入れる大きなチャンスがもたらされるのです。

 

CASのシンポジウムで探る、新たな治療学における生物学と化学の融合

Big data concept

CASでは、『Emerging Therapeutics at the Intersection of Biology and Chemistry』というシンポジウムを最近開催しました。 これはACS Fall 2023の期間中、ACS Technical Division of Multidisciplinary Program(MPPG)のもと、サンフランシスコのモスコーニセンターにおいて開催されたイベントで、知識の交換と洞察に満ちた議論など、有意義な場となりました。

このシンポジウムの冒頭では、CASの最高科学責任者ジル・ジョージス博士により、CASの使命についての概説と、CASのデータ解析や卓越した人材に関する紹介が行われました。 そして、広範囲にわたる科学コンテンツ範囲をはじめ、さまざまな関連性、そして独自の技術など、いかにCASが知識共有のためのハブとして確立しているかの説明がありました。 そして、分散されたデータセット間に新たな関連性を見出すことで、CASの専門科学者たちにより洞察が引き出されるプロセスも紹介されました。

進化する免疫腫瘍学の状勢を探る - 新たに出現してきた概念と治療標的に関するデータドリブンな解析

CAS情報科学者のサビーナ・スコット博士により、CAS コンテンツコレクション™に基づいて免疫腫瘍学に関する論文をトレンド分析した結果が発表されました。 近年、免疫治療における研究の関心や論文は増加傾向にあります。しかし、この数多のノイズの中から適切なシグナルを特定するには、どうすればいいのでしょうか。 新しい概念が台頭してきたとき、それを検出するためには、自然言語処理(NLP)技術と人間の知能をうまく組み合わせることで、各論文を評価し、そして取得された幅広い回答セット内の類似コンテンツを検証するという方法が使われます。 その結果、この新しく台頭してきている概念の多くは、免疫腫瘍学バイオマーカー、標的タンパク質の種類、治療薬の種類、生物学的メカニズムといった分野になっていることが分かったのです。

サビーナ・スコット博士
ACS 2023年秋季大会で発表されたサビーナ・スコット博士のスライド

SARS-CoV-2およびCOVID-19ワクチン接種に対する免疫反応と免疫記憶 - 将来のワクチンへの教訓

次に、ラホヤ免疫学研究所のシェーン・クロッティ博士から、COVID-19の免疫とワクチン開発における最新の発見について深く掘り下げたプレゼンテーションがあり、注目を集めました。 博士は、SARS-CoV-2感染やワクチンに対して、急性と記憶T細胞、抗体、記憶B細胞がどのように反応するかに関する研究結果を発表しました。 具体的には、8か月間にわたってCOVID-19症例数百件から得られたSARS-CoV-2に対する循環免疫記憶を、記憶B細胞や抗体、CD4+ T細胞、そしてCD8+ T細胞など複数の区画に分けて分析した結果です。 4種類のCOVID-19ワクチンに対する体液性免疫記憶と細胞性免疫記憶の評価結果も、貴重な収穫でした。 このセッションでは、胚中心という概念が紹介され、そしてそれがワクチン導入時の免疫生成において果たす極めて重要な役割が浮き彫りになるなど、グローバルな課題に対するタイムリーな視点が提供されました。 免疫反応の複雑なメカニズムに光を当てたこの視点は、今回のパンデミックをめぐる世界的な懸念から、参加者からは強い共感が得られました。

クロッティ博士
ACS 2023年秋季大会で発表されたクロッティ博士のスライド

抗体薬物複合体 - 標的療法のための新しい薬剤クラス

ヤシッド・ロドリゲス博士が、CASを代表して抗体薬物複合体(ADC)による生物学と化学の融合の可能性について詳しく解説しました。 抗体薬物複合体(ADC)は急速に台頭してきている、高度に標的化された疾患治療のためのバイオ医薬品です。 これは、モノクローナル抗体が安定したリンカーによって小分子薬剤と連結したものです。 ADCは主にがん治療に使用されており、健康な組織を傷つけることなく、特定の抗原を標的としてがん細胞を死滅させます。

研究チームは、CAS コンテンツコレクションのデータを使い、ADCに関する研究の状勢とトレンドや課題などの概観をまとめました。 科学論文を時間や地域、リンカー技術、ペイロードの選択そしてローディング方法などの要因に基づき特定し、そして分析したのです。 ADCの開発パイプラインも、疾患の治療における臨床への応用とともに調査しています。 この分野の現在の知識をこのようにして把握することで、さらに改良と開発を進めて、将来のADC技術を成功に導くことができるようになります。

ヤシッド・ロドリゲス博士
ACS 2023年秋季大会で発表されたヤシッド・ロドリゲス博士のスライド

エクソソーム - それは自然界がもたらした脂質ナノ粒子という、薬物送達と診断の希望の星

CAS情報科学者のアンディ・チェン博士により、治療や診断用途のためのエクソソームという、影響力ある分野に関する洞察が発表されました。 エクソソームは、ほとんどの真核細胞から分泌される細胞外小胞のうち、脂質二重膜に包まれたナノサイズのものを指すサブグループです。 生来の安定性や低免疫原性、生体適合性、そして優れた生体膜浸透能といったその特有の性質により、効率的な薬物送達のための優れた天然ナノキャリアとして機能します。

博士は、CAS コンテンツコレクションのデータをもとに、治療や診断にエクソソームを応用するための研究の現状とトレンドに関する洞察を、時間、地域、組成、カーゴローディング、そして開発パイプライン全体にわたって得ています。 博士は、この研究によってエクソソームの医療応用分野における現時点での知識の理解が深まり、残った課題も解決されて、エクソソームのポテンシャルが引き出されるようになることを望んでいると語っていました。 新しく台頭するこのエクソソームの情勢をさらに理解するには、今後の機会や課題を明らかにするCAS Insights Reportをご覧ください。

アンディ・チェン博士
ACS 2023年秋季大会で発表されたアンディ・チェン博士のスライド

抗体オリゴヌクレオチド結合体(AOC) - 筋強直性ジストロフィー治療薬AOC1001の開発

Avidity Biosciences社の化学担当ディレクター、ソン・ラム博士により、筋強直性ジストロフィー1型(DM1)を標的とする抗体オリゴヌクレオチド結合体(AOC1001)という革新的な新薬候補の紹介がありました。これは、医学的介入の将来の姿を垣間見るようなものと言えます。 博士は、オリゴヌクレオチド薬剤の標的への送達に抗体を使用することで、いかに特異性と安定性が確保されたかを、詳しく説明しました。

米国には4万人以上のDM1患者がいます。しかし、この疾患に対する薬剤は承認されていません。 AOC1001は、siRNA分子を用いて、原因になっている毒性のミオトニンプロテインキナーゼ(DMPK)のmRNAを標的とするよう設計されています。 前臨床試験において、この薬剤には良好な安全性と忍容性があるほか、筋肉を標的として送達を行い、DMPKのmRNAも顕著に減少させ、そして疾患メカニズムにも影響を及ぼしていることが示されています。 現在、AOC 1001は第1相と第2相の開発段階にあります。 ラム博士はまた、デュシェンヌ型筋ジストロフィー(DMD)と顔面肩甲上腕型筋ジストロフィー(FSHD)をそれぞれ標的とした、AOC 1044とAOC 1020という2つの抗体オリゴヌクレオチド結合体も紹介しました。

ソン・ラム博士,
ソン・ラム博士

PEG化脂質ナノ粒子製剤 - 免疫学的安全性そして効率性からの視点

チョンチョン・アンジェラ・ジョウ博士による、PEG化脂質ナノ粒子に関する発表では、薬物送達におけるその利点とともに、さらなる研究が必要な領域も明らかにされました。 博士が特に強調していたのは、ポリエチレングリコール(PEG)が引き起こす免疫反応のしくみを解明することと、それが将来の医薬品開発にもたらす潜在的な影響を理解することの重要性です。 PEG化LNPの免疫原性と全般的な安全性への懸念に関して、博士はCAS コンテンツコレクションのデータ分析に基づいた概要を発表しました。 また、PEG脂質のさまざまな構造パラメータが、LNPの免疫反応や薬物送達の効率という意味での活性に対してどのような影響を与えるかについても、文献レビューに基づいて要約を行いました。 ジョウ博士のプレゼンテーションは、PEG免疫を理解するためにはさらなる研究の取り組みが必要だという、科学界への提言になっています。 PEG化脂質ナノ粒子とその免疫原性に関する懸念については、簡潔にまとめたCASエグゼクティブサマリー、またはより詳細な内容ならBioconjugate Chemistry誌の査読付きジャーナル論文をご覧ください。

チョンチョン・アンジェラ・ジョウ博士
 

今後の展望

このシンポジウムでは有意義な議論が行われ、参加者は専門家とやりとりができたほか、最先端の進展状況を把握することができました。 進化する医療の課題に対応できる革新的な解決策を生み出すためには、生物学と化学を融合させることがいかに重要かが、確認されました。

科学的知財戦略のための先行技術調査と分析

3D illustration Technology Abstract background,Futuristic digital Landscape data analysis wave .background for business, Science and technology

研究開発への投資の水準は大きく伸びており、2022年だけでもグローバルな投資額は2兆4,760億ドルに達すると予想されています。 新たなイノベーションの投資収益率を守るためには、堅固な知的財産戦略が不可欠です。 ある分野に投資する前に、関連する特許活動を理解し、そして先行技術の分析を行うことが不可欠です。 仮に、自分たちのイノベーションの特許出願日より前に、開示が行われたとします。 その場合、特許出願は却下されます。したがって、研究開発プロセスの早い段階で関連する先行技術を特定し、将来の特許性を判断することが重要です。

そのように開発や特許の準備段階でそのイノベーションは区別する戦略を立てることで、無駄な研究開発費の支出を回避できます。

新発明の市場投入前の研究開発には多額の資金が投入されるため、調査が不完全だと、知的財産戦略において高くつく失敗を招く恐れがあります。 そのほか、不完全な先行技術分析は、出願した特許の却下や特許の侵害、または既存特許の無効化などといった結果を招く可能性もあります。 こういった理由から、効果的かつ徹底的な先行技術の分析方法を理解することは極めて重要だと言えます。

先行技術の参考文献とは、どこにあるものなのか

先行技術調査の開始点として最も一般的なのは、既存の特許や特許申請です。 却下済みや係属中、そして放棄された特許申請も、技術革新の全体または一部を開示していれば、それは先行技術とみなされます。 特許文献に加え、特許以外の文献でも先行技術を見つけることができます。査読付き出版物、学位論文、学会発表、およびその他の開示形態などです。

書籍、図版、物体、アナログ録音、そして写真などの資料がデジタル化されてきたことにより、先行技術を見つけるために検索可能な資料の量は増加しています。 同時に、科学文献の量も飛躍的に増えており、先行技術の徹底的な分析に必要な情報量も増大の一途をたどっています。 さらに、現代の科学的なイノベーションは、多くの分野が交差する領域で実現することが多くなっています。 こういった理由から、包括的な先行技術の分析は、時間がかかり複雑な仕組みになっているのです。

CAS STNext®は、グローバルに公開されている特許と非特許、科学および技術コンテンツにおける、最も新しくそして完全なコレクションへの統合アクセスを検索担当者に提供することで、包括的な先行技術分析を可能にするものです。

CASでは、特許および非特許文献などのデータベースと精選されたソースの包括的なコレクションであるCASコンテンツコレクションTM の主要化学関連コンテンツを含む、100以上の多様なデータのコレクションを組み合わせています。 また、これはグローバルな特許のマルクーシュ構造を検索できる数少ない情報源のひとつとなっています。そこには、1988年から現在までの特許に掲載されている120万件以上のマルークシュ構造を検索可能にしており、しかも内容は毎日更新されています。

知的財産の専門家は、この豊富で権威あるデータセットに、高度なインターフェースと強力な精密検索機能を備えたCAS STNextを通じてアクセスできます。 貴組織のツールキットにCAS STNextを追加することで、先行技術のリスクと共通性を徹底的に評価し、よりスマートでデータドリブンな意思決定を導くことができるようになります。

各種機能を搭載したCAS STNextを、ぜひご検討ください。

どうやって先行技術の分析に適切な検索情報源を特定するか

先行技術の情報源にはさまざまな選択肢があるため、知的財産の検索担当者は、調査戦略を立てる際には、適切なものを選ぶことが重要です。 特許の概要を大まかに把握したいのであれば、検索エンジンや特許庁のインターフェースから始めるのが便利です。 ただし、そういった情報源は、その機能や網羅する範囲が必要以上に広範囲に及ぶ場合があります。 一方、オープンソースの検索ツールの多くでは、化学式や生物学的プロセスといった複雑な科学情報を扱えるようになるためには、よりカスタマイズされたアルゴリズムが必要になります。 オープンソースの検索エンジンのもうひとつの大きな障害として、多くの場合、画像化されたPDFのような文書から情報を引き出すことができないということが挙げられます。 さらに、多くのオープンソースの検索エンジンには、関連文書の捕捉に必要な幅広い情報が含まれていません。 そのため、先行技術検索にギャップが生じる結果になります。

このギャップを埋めるために、知的財産のアナリストは複数の情報源を駆使しています。 実際、科学業界でイノベーションを行っているところは、CAS STNextなどの信頼できる検索プラットフォームを利用して、既存の文献や科学情報を効率的そして包括的にレビューしています。 CAS STNextは、複数の情報源を横断的に検索できることに加え、最先端の技術と専門家によるキュレーションを活用することで高精度の検索が行えるため、経験豊富な知財研究者ですら見つけることが困難な文書も特定できるようになります。 また、CAS STNextには「インデックス検索」機能と人工知能も搭載されているため、サーチャーは、目的の技術に関連する情報をすばやく特定することができるようになるのです。

こちらのウェビナーでは、CAS STNextがどのように人工知能を活用して先行技術の分析を強化しているかを紹介しています。

先行技術の調査範囲を定義する

先行技術の調査方法を策定する際には、情報源が最新であること、そしてその網羅範囲を考慮することが重要です。 サーチャーは、検索の法的要件を考慮し、個々の情報源において、どのような情報がカバーされているか(またはカバーされていないか)を詳しく把握する必要があります。

検索結果が、その検索を要請している利害関係者の法的要件を満たすようにするためには、情報源の発行日、内容の更新スケジュール、対象国などの詳細情報を把握しておくことが極めて重要です。

検索範囲を定期的に見直し、その関連性と最新性が維持されるようにする必要もあります。 製品の戦略が変更された場合(例えば、新たなグローバルマーケットへ進出するなど)、新たな検索結果が出たときに、それが変更後の要件に対しても妥当なのか判断できるよう、最初の検索範囲をきちんと理解しておくことが不可欠です。 そうすることで、検索に潜むギャップを特定でき、そして導き出された結論が信頼できるものであることを確認できるのです。

こちらの記事では、先行技術調査でより広範囲な検索をすることの重要性を解説しています。併せてお読みください。

先行技術検索においてを適切なクエリを組み立てるには

先行技術検索のための適切なクエリを組み立てる際、発明の技術的特徴を明確に定義することは非常に重要です。 技術的特徴を明確に理解することで、関連する検索用語(類義語を含む)と検索の情報源を決定できるため、関連する先行技術を見逃す可能性を低くすることができます。

適切な検索キーワードを特定する際に考慮すべき点として、スペリングのバリエーション、そのキーワードの外国語での言い方、特許分類によってその用語が歴史的に異なった呼び方をされる場合、などがあります。

そのイノベーションがどんな分野なのかによっても、クエリは変わります。 例えば、化学をベースとするイノベーションでは、効果的な先行技術分析を行うには化学構造のクエリを実行することが効果的な戦略になります。 それに対して工学分野では、pHの範囲や温度などの数値情報に対するクエリが効果的です。 正確なクエリは、検索後のレビューの時間を短縮させるほか、洗練されていない方法では見逃されてしまうような先行技術を特定するのにも役立ちます。

徹底的な先行技術分析を行ったかどうかは、どうやってわかるのか

どの時点で検索を終了させるかの判断は、重要であり難しい決断でもあります。 いつ終了させるかを判断する最良の方法のひとつに、収束の原理を用いるというのがあります。 これは、たくさんのキーワードや引用文献、競合他社のレビュー、または化学物質情報などを使ったりなど、別の方法で検索を行い、クエリが同じ結果を返すかどうかをチェックすることで達成できます。 結果が収束するようなら、徹底的な検索が行われたと判断できるというわけです。

検索方法の価値を最大化させるには、この原則を適用することが不可欠です。 検索が収束しない場合は、重要なキーワードや検索語を見逃していることが考えられます。その場合、先行技術分析は、先行技術の重要な部分を見逃してしまう可能性があります。 逆に、検索をあまり深くしすぎると、意味のある結果を得ることなく、時間とコストがかさむだけになってしまいます。

先行技術の検索を行う際に考慮すべきポイントを説明したこちらの記事も、併せてお読みください。

貴組織の業界に精通している先行技術分析のプロに相談することで、時間と費用を節約

包括的な先行技術の検索は、往々にして遅い段階で行われたり、不完全だったりします。そうなるとその組織も、その研究開発パイプラインも、リスクにさらされてしまいます。 関連する先行技術を見逃したときの代償は高くつきます。2020年には、米国の裁判所は特許侵害による損害賠償として46億7,000万ドルの支払いを命じているのです。 そこで、研究開発に投資する前に、まず先行研究を特定すること、そしてイノベーションが開発された後も、新しい先行研究を特定し続けることが不可欠です。

最高レベルの知的財産検索ツールを使用しても、先行技術の分析を確実に実施することは困難です。 包括的な先行技術検索の実施するにあたり、テクノロジーを活用したり、知財調査の専門家の協力を仰ぐことで、先行技術の見落としを防ぎ、同時に時間を節約することができます。

そこで、CASの登場です。
CASのチームは、化学とライフサイエンス、そして先行技術分析に精通したエキスパートで構成されています。 化学物質や配列、そしてマルクーシュ構造など特許文書の複雑な側面であっても、それが検索可能になっており、そしてアクセス可能になっているよう、何百人もの科学者が日々CAS コンテンツコレクションの構築に取り組んでいます。

この唯一無二の豊富な知識がCASの能力を支えており、それが包括的なデータベースのキュレーションを行い、セルフサービス検索のためのCAS STNextなどの信頼性の高い知的財産ツールを提供し、そして必要に応じて信頼できる検索サポートを提供することを可能にしているのです。

CAS STNextの詳細、またはCASの知財ソリューションのデモをご希望の方は、お気軽にお問い合わせください

 

科学関連産業における特許性の評価

Scientists Working on Computer In Modern Laboratory

イノベーションを保護するうえで、最も重要な手段のひとつが特許です。 もし特許の取得を目指しているか検討しているなら、注意するべき点がいくつかあります。

科学イノベーションの特許性には、その技術の複雑さや、徹底的な先行技術調査を行うことの困難さ、そして絶えず変容するこの産業の性質などからくる、固有の課題が存在しています。 本記事では、科学関連産業における特許性の評価に存在するそれら固有の課題を明らかにしたうえで、それらに対処するためのベストプラクティスと、CASがどのようにお手伝いできるかを紹介します。

科学イノベーションは複雑で重層的。特許サーチの難易度も上がります。

技術が複雑であればあるほど、特許性評価を行う際に検討するべきこと、そして照会するべきことが多くなります。 それは、重要な情報が、特許や一般的な非特許文献以外のさまざまな情報源に隠されていることがあるためです。先行技術の全体像を把握するためには、そういったところも掘り起こす必要があります。

RNAのイノベーションの例をみてみましょう。

特許性評価を実施する際には、ナノ粒子の送達、リガンド、複合体、そして化学修飾の種類などを考慮に入れる必要があります。 単純にBLAST検索やモチーフ検索で関連配列を見つけるようなわけにはいかないのです。 時間をかけて進化してきた技術を特定し、そして誰が関与しているかを把握する必要もあります。

企業は、公開されている技術を特定し、リスクを最小化し、より早くイノベーションを実現し、そしてデューデリジェンスを早期に、そして徹底的におこなわない場合に発生するリスクを回避したいときは、CASのソリューションを利用しています。

知的財産の藪に注意

知的財産 (IP) の藪 (やぶ) (= intellectual property entanglement (知財の「もつれ」)) とは、ある企業の知的財産権やFTOが、他者が所有する既存のIPにより制限される状況を指します。 この藪が発生する原因は、技術の融合、クロスライセンス契約、研究での協力、あるいはM&Aなど、いくつかの理由があります。 知的財産の藪は、特に医薬品や機能材料といった規制が厳しい業界では、発明の特許性に大きな影響を及ぼす恐れがあります。 知的財産の藪は、企業が技術革新をし、商品化し、そして収益を生み出す能力を左右する可能性もあることから、それを特定して管理することは重要です。

関節リウマチの大型治療薬、Enbrel の例を見てみましょう。 この薬は当初 Immunex Corporation社により開発されました。しかしその後、同社はアムジェン社に買収されます。 ところが、Enbrelの原特許は Immunex社と、のちにファイザー社に買収されたWyeth Pharmaceuticals社が共同で所有していました。 このため、Enbrelの特許権をめぐり、アムジェンとファイザーの双方が特許の所有権を主張し、複雑な法廷闘争に発展したのです。 この訴訟は最終的に2017年に和解が成立し、アムジェンはEnbrel特許の完全な所有権を獲得しました。

こういった知的財産の藪にさらに複雑さをもたらすのは、バイオシミラーの開発です。 バイオシミラーの製造には細胞株や製造工程の利用が必要で、これらも既存の特許で保護されている場合があるためです。

絶え間なく変容を続けるバイオテクノロジー業界の特許状勢に、どう対応していくべきか

新たな特許が日々出願され、特許の状勢は常に変化を続けています。 例えば、CAS社内の専門家によれば、RNAのイノベーションでは過去10年間に10,000件以上の特許が発行されたと推定されています。 こうなると複雑な文書や文献を整理することがますます難しくなり、イノベーターにとっての課題となります。 そこで業界内で、「このペースにどうやってついていくべきか」といった声が多く上がるようになってきているのです。

徹底した最新の特許性評価への第一歩は、信頼できる知的財産検索ツールに投資すること

検索ツールは、定期的に新しい特許や非特許文献で更新されるものを選ぶ必要があります。 現在、多数の検索ツールが市場に出ています。しかし、すべてのツールが同じ機能や検索結果の品質を提供しているわけではありません。 オープンソースの検索ツールの中には、科学業界では必須である検索アルゴリズムのカスタマイズ機能がなかったり、またはもっとも関連性の高い、最新の情報を提供しなかったりするものもあります。

CASでは、さまざまな業界における潜在的な知的財産の藪に対処できるよう、広範囲なソリューションを提供しています。 例えば CAS SciFindern や CAS STNext などCASの科学技術ソリューションでは、お客様が潜在的な知的財産の藪を特定し、そして複雑な競合環境を切り抜けられるよう、特許や科学文献、そして規制データなど豊富な情報へのアクセスを提供しています。

さらに、CAS IP ServicesSM では、FTOの評価、特許性の評価、そして特許ポートフォリオの分析など、知的財産に関する特定の課題にお客様が対処できるよう、カスタマイズされたソリューションを提供しています。 これらのサービスでは、CASの特許調査と分析における高度な専門知識のみならず、広範囲な特許専門家のグローバルネットワークも活用されています。

CAS STNext® の詳細はこちらをご覧ださい。

検索方法が有効かどうかは、データソースに左右される

化学やバイオテクノロジーのイノベーションで信頼性の高い特許評価を行うには、一貫性のない用語や不完全な索引付けは脅威となります。 化学式、構造、生物学的配列、修飾などで捕捉されないものがあると評価の漏れにつながります。 しかし、これらの情報を異なるデータソースから効果的に、そして包括的に取得できるような単一の検索方法というものはありません。

そこで、関連するすべての先行技術を特定し、徹底的な特許性評価を行うためには、包括的で適切に構造化されたデータベースをもとに構築された戦略と、効果的なツールが必要になります。

CAS コンテンツコレクションTM なら、こういった課題を念頭に置いて構築されているため、化学物質や配列、そしてマルクーシュ構造など特許文書や非特許文献の複雑な側面でも検索可能、そしてアクセス可能になっています。 

CAS STNextは、130以上のグローバルな高品質データベースを単一のインターフェースで検索できる、信頼性の高いソリューションです。

技術だけでなく地域も考慮して検索する

検索は、適切な地理的範囲内でも行えるようになっていることが非常に重要です。 文献を検索する際、その地理的範囲が広すぎると、ふるいにかけなければならない資料も膨大になります。 逆に検索範囲が狭すぎると、関連文書やつながりを見逃してしまう可能性があります。

では、検索の適切な地理的範囲は、どのように決定すればよいのでしょうか。 大体、検討中の評価の種類に応じて、適切な地理的範囲も変わるかもしれないのです。 例えば、以下の場合を考えて見ましょう。

  • 特許性評価の場合。特許性を評価するときの先行技術調査の目的は、既存の関連先行技術でイノベーションの新規性に影響するかもしれないものをすべて見つけることにあります。 もしそういった情報が見つかったら、研究開発戦略が頓挫する可能性すらあります。 米国では、世界中のすべての先行技術が特許性判断の対象となります。
  • FTO検索をする場合。有効な特許のクレームを調べる際、そのイノベーションがどの地域で展開・販売されるかによっては、特許の検索方法も変わってきます。 CASのFTO調査戦略でも、貴組織がどこで事業を行い、そして発明を販売したいかによって変わります。 貴組織の商業化戦略によっては、検索対象の範囲を絞って、主要な特許庁に限定することもできます。 逆にグローバルな事業展開の場合は、より広範な調査を行う必要があります。

まとめ

機能材料やファーマなど、知的財産の状勢が進化し、そして急激に変化する科学業界では、最新かつ包括的な知財検索ツールは不可欠です。

STN IP Protection SuiteTM なら、科学知財を保護し、そして徹底的で包括的な先行技術調査とFTO検索を行うのに必要なツールが含まれています。 そして特許と特許以外の情報源から科学者が集約、収集、そして翻訳した比類のないコンテンツにアクセスできます。 モニタリングツールと専門的なテクノロジーを通じて貴組織のリスクを軽減し知財資産を保護することで、競合相手の一歩先をいき、貴組織の発明を保護することができます。 また、追加のサポートが必要になったら、CASの知的財産のエキスパートが貴組織の知的財産チームの延長としてお手伝いいたします。

 

ファーマのデータ管理 - ダークデータに隠れたブレークスルーを発見する

Jennifer Sexton , Director/CAS Custom Services

Abstract circular data tunnel

データリッチ、インフォメーションプア - 製薬業界のこの呪縛は元に戻せる

製薬業界では、前臨床試験から販売に至るまで、膨大な科学情報とビジネス情報が生成・保持されています。 しかし、そういった文書は、通常サイロ化されて保管されているため、企業のストレージ予算の約52%を占めるほどの膨大な年間保管費用を要すようになっています。

こういったダークデータの存在に気が付いていなかったり、その潜在能力を最大化させる方法のノウハウがない企業は、必然的に「データリッチ、インフォメーションプア」(または「DRIP」)という状況に陥ります。 この概念は、大量のデータを保有しているにもかかわらず、価値ある情報を生み出し、競争上の優位性を獲得するプロセスを持たない組織を表現するものです。

デジタル化が推進されてきたことで、企業では、ダークデータが生成されるのを防ぎ、また現在潜在している情報をエビデンスに基づいた洞察へと効果的に変えるのに役立つ、高度な組織ツールを導入できるようになりました。 しかし、膨大なデータをクリーニング、整理、そして活用するのは、圧倒される大仕事になることもあります。 外部のデータ専門家を活用すれば、カスタマイズされたステップバイステップのアプローチが提供されるため、製薬企業のナレッジマネジメントシステムが新たな次元に引き上げられます。

デジタル化とハーモナイズ - ダークデータの混沌に構造をもたらす

製薬会社は、ダークデータを取り出して利用することで、研究開発の投資の方向づけや、製剤の最適化、生産ボトルネックの特定、そして品質システムや品質管理の評価などに役立てることができます。 ところが、ネイチャー誌に掲載された "Scientists losing data at a rapid rate" という記事では、科学データの約80%が20年以内に利用できなくなると推定されており、適切な情報の検索が危うくなってきています。

バインダーや引き出し、セキュアでない仮想プラットフォームなどに今も蓄積されているダークデータは、さまざまな形態で、しかも多くの場合、他とは切り離された状態で、存在しています。 年月の経過に伴いチームが変容すれば、企業の知識もすぐに散逸し、取り出すことも困難になっていきます。 レガシーの文書をデジタル化し、すべての情報を単一のナレッジマネジメントプラットフォームに集めることで、データ取得の効率が高まり、データ管理のタスクに割り当てるリソースが減り、そして組織内で経験の共有が改善されます。

明らかなメリットが得られた例として、科学者間の情報共有を容易にすることで研究室の安全性を向上させることを目的とした、Pistoia Alliance Chemical Safety Library のローンチが挙げられます。

専門知識はデータのデジタル化とハーモナイズに役立つ
潜在するデータを検索・活用可能な資産に変えるには、文書の適切なデジタル化と、信頼できる品質チェック、そしてそれを安全に企業のエコシステム統合できる専門知識が必要です。 優れた外部パートナーであれば、あらゆる要素を理解・習得し、貴社のニーズに合わせた独自のデータコレクションの構築を支援することができるはずです。

開発が廃止された医薬品から市場での成功談まで、貴社の過去には貴重な教訓があふれています。 このダークデータを構造化しそしてハーモナイズさせることで、データパートナーは、潜在する情報をエビデンスを基にした洞察に変え、無限のイノベーションの機会へとつなげることができます。

データ管理でパートナーシップを組むメリット

  • 物理的な文書の適切なデジタル化。これには、科学文献、報告書、ラボ日誌、画像、映像などをデジタル形式に変換することも含まれます。
  • デジタルコンテンツのハーモナイズ。一貫した用語や略語、そして形式を使用します。
  • 確認されたデータの品質、正確性、整合性によってナレッジマネジメントプラットフォームの強固な基盤を確保します。
  • カスタム設計された検索ツールによってデータのアクセスしやすさと取得が向上します。
  • 長期的なデータ保守と管理の確保。これは、カスタマイズされた取得戦略を実施することで達成されます。

分析して最適化する - データの中のパターンや機会を見つける

ダークデータを再度使えるようにし、そしてナレッジマネジメントのプラットフォームを構造化することで、企業の価値を大きく拡張できます。 膨大なデータセットを解析することで、今まで見えなかった傾向を特定することができます。 過去の創薬の研究開発や製剤データまたは製造方法などからパターンを明らかにすることで、時間を大幅に節約し、バリューチェーン全体のプロセスを改善し、そして重要なビジネス上の意思決定をしやすくなります。

Mana.bio社のデジタルトランスフォーメーションの取り組みは、高品質にキュレーションされたデータと技術の統合を通じて、製薬会社がいかに独自の社内プラットフォームやデータベース、そしてワークフローの成功を最適化することができるかを例示しています。 この取り組みで、Mana.bio社は同社独自のデータベースを更新し、薬物送達AIエンジンを強化することで、分子データの取得と準備に割り当てるリソースを70%削減できるようになる見込みです。

このようにして、ナレッジマネジメントのプラットフォームの精度と価値が向上するのに伴い、トレンドを自信を持って特定し、次の発見に向けて動き出すことができるようになるのです。 パターンを発見することが、従来よりも簡単に、よりすばやく、そしてやりがいのあるものになるでしょう。

外部のパートナーが、いかに製薬企業のデータ分析と洞察の生成の改善に役立つか
外部パートナーは、包括的で完全に機能するデータプラットフォームを設計する専門家であり、またデータの状態に関する完全な視野を提供できることが求められます。 そういったデータの専門家と協力することで、製薬企業は以下のことが可能になります。

  • アナリティクスと洞察のためのデータ基盤を確立する。これには、強力なフレームワークとデータの整合性も必要となります。
  • 知識のギャップを特定し、そして、そのギャップを埋めるためのプロジェクト機会も特定する。
  • データの可視化やアナリティクスに関するサポートを手配して、パターンとトレンドを明らかにする。
  • 追加コンテンツで内部データを拡張し、補完する

つなげて、そして革新する - 的確な情報を適切な人材に

製薬会社には、医療の革命のために尽くす、聡明で知識豊富な人材が多く集まっています。 ところが、多くの場合、社内の専門家同士のコミュニケーションは分断されているため、成長の機会が危機にさらされ、イノベーションの進展も影響を受けます。 デジタル化の時代において、企業はデータ管理などソーシャルテクノロジーを活用することで、労働者の生産性を20~25%向上させることが可能だと報告で示されています。

患者に最高の医薬品を提供するには、研究開発、業務、品質管理から、IT、マーケティング、財務に至るまで、各部門が協力して取り組む必要があります。 全社的なナレッジマネジメントシステムを活用することで、データや過去の経験、そしてベストプラクティスといった事を効率的に共有できる、セキュアなワークスペースをチームに提供することができます。

クラウドベースのプラットフォームなら、リアルタイムのコラボレーションのレベルを底上げするため、研究者、エンジニア、技術専門家が情報をすばやく検索・取得できるようになります。これによりチームは、より速いビジネスの変更決定に必要なデータのアクセシビリティと共同作業環境が得られます。

外部のデータパートナーが、いかに製薬企業がつながり、そして革新するのに役立つか
高度なナレッジマネジメントシステムの専門家と提携することで、製薬会社のリーダーは以下のことが可能になります。

  • 全社規模の、そしてすべてのチームに適したクラウドベースの共有ナレッジマネジメントのプラットフォームを作り上げる
  • ユーザーのアクセス制御を強化し、サードパーティ製ソフトウェアの使用を制限することで、データの安全性を確保し、侵害を最小限に抑える
  • セキュアなチャネルを通じて、秘密情報や機密情報の安全なやりとりを促進する
  • 分野間のブレーンストーミングとコラボレーションを促進して、画期的なビジョンを拡大させ、革新を加速させる。

ナレッジマネジメントとダークデータは、製薬イノベーターに不可欠である

堅牢で安全なナレッジマネジメントシステムは、製薬業界では長い間、「あれば便利」程度にとらえられてきました。しかし今や革新的で協力しあう研究には、これは不可欠な基盤となっています。 以前は利用できなかったダークデータも、全社規模のインターフェースで構造化およびハーモナイズされることで、成長の機会を求める製薬企業にとって価値ある洞察に早変わりします。

デジタル化が今後も進んでいくに従い、製薬業界でダークデータとコグニティブツールを活用することは、医薬品開発分野においてイノベーションをリードし続けるためには必要なことになってきています。

デジタルトランスフォーメーションやデータ管理についてより詳しく知るには、CAS Custom Services のケーススタディをお読みください。

火星が呼んでいます。しかしアルテミスの燃料はどう調達するのでしょうか。

Gilles Georges , formerly served as Vice President and Chief Scientific Officer at CAS

Successful rocket take off into the starry sky with the milky way

化学の威力を最も華々しく披露できる舞台のひとつに、宇宙探査があります。 1950年代後半の人類初の無人宇宙飛行からはじまって、スペースシャトル計画、そして今度はアルテミス計画にいたるまで、ロケット燃料とエンジン技術の革新は宇宙探査の到達距離や能力、そして持続可能性を進歩させ続けており、この分野で化学がいかに貢献しているかが、リアルタイムで示されています。

ロケット燃料の最適化が成功の鍵

ロケットは、地球の重力から脱出するのに必要な莫大な推進力を生み出すために、燃料と酸化剤のさまざまな組み合わせを用いています。 酸化剤と燃料は、常温では安定しています。ところが混合され熱源により点火されると、爆発反応を起こし、それがロケットの推進力となります。

この燃料と酸化剤との比率を調整することで、ロケットの各種性能を制御することができます。 組み合わせには、それぞれ固有の特性、利点と欠点が存在し、推力効率などの性能指標に影響するほか、毒性、コスト、安全性などその他の考慮事項にも影響します。 このようなことから、それぞれの宇宙探査ミッションに最適な推進剤パッケージを選択することは、ロケットのミッションに関わる多数の変数に左右される重要な決定です。

例えば、気体の推進剤では必要になる体積が大きく、したがって長距離ロケットにはほとんどの場合で実用的ではなりません。そこで、物質を圧縮し冷却してその物質に対応する液相にすることで、大規模ロケットに適した体積対出力比が得られるようになります。 ただし、推進剤の中には沸点が極めて低く、液化には-150℃(-238°F)以下の極低温まで冷却する必要があるものが存在します。 そういった燃料をロケット推進用とする場合、これが重大な欠点となることもあります。そこでそういった燃料を選ぶ際、それが正当化されるためには、そのミッションにおける要件のコストや課題を上回るだけのメリットが必要になります。

推進剤の重要な性能特性は推力と比推力です。この2つは、時に混同されることがあります。 推力は、推進剤の反作用力ポテンシャル、つまりロケットが持ち上げることのできる重量の大きさを示します。 比推力(Isp)は、ある一定量の推進剤が特定の負荷を推進できる時間に基づき、推進剤がその質量をどれだけ効率よく推力に変換できるかを定義するものです。 比推力の高い推進剤を使用したエンジンは推力が低くなる傾向がある一方、推進剤の質量を効率よく利用します。 つまり、燃費が良いというです。

表1は、一般的なロケット燃料パッケージの主な特性を比較したものです。 NASAのアルテミス計画スペースローンチシステム(SLS)ロケットに採用されているRS-25エンジンは、LOX/LH2推進剤パッケージを使用しています。 一方、SpaceXのRaptorやBlue OriginのBE-4など、一部営利団体が開発中のロケットは、液体メタン / LOXパッケージを原動力としています。

現代のロケット推進剤の中では、LOX/LH2が最も高いIsp値を示しています。 この効率と信頼性の実績が、どちらの原子も極低温の冷却を必要とするにもかかわらず、LOX/LH2パッケージが過去50年にわたってロケット推進剤として一般的に使用されてきた主な理由です。 また、他の推進剤が燃焼後に大量の汚染化学物質や温室効果ガスを放出するのに対し、LOX/LH2の燃焼により生じる主な副産物は水であるため、よりサステナブルな燃料となっています。  

液体酸素LOX / 燃料推進剤
表1.
各種推進剤パッケージ。 LOXとさまざまな燃料の特性。" data-entity-type="file" data-entity-uuid="428f0733-8e9d-437e-93c9-c99bdd862b30" src="/sites/default/files/inline-images/Table1_FINAL_rocket%20fuel.JPG" />

注:*RP-1 (Rocket Propellant-1) はケロシンを高度に精製したもので、液体ロケットエンジンに広く使用されています(サターンVのロケットエンジンなど)。

LOX/LH2ロケットのラジカル反応の化学

水素と酸素は安定した元素のため、常温で混合しても自然反応はしません。 反応が起きるためには、H-HとO=Oの共有結合が切断される必要があります。 H-HとO=Oの結合エネルギーを上回るだけのエネルギーが供給されると、連鎖反応が生じて最終的に水が生成されます。 水という安定した構造に向かって進むこの反応では、H2がO2と燃焼する際に大量のエネルギーが放出されます。

Figure1_rocket_fuel_SS
図1
. 主なラジカル反応、O2中でのH2の燃焼に関与する各過程 " data-entity-type="file" data-entity-uuid="81adfa68-6a83-458f-9726-e303361dd3cb" src="/sites/default/files/inline-images/Figure1_rocket_fuel_SS.JPG" />

一見単純に見えるこの反応も、実際はH2とO2の燃焼は複雑で、HラジカルとOラジカルによるいくつかの中間反応を伴います。 水の生成へと進む主な反応を図1に示します。 連鎖分岐反応は、1つのラジカルが2つ以上のラジカルを生成するときに生じます(図1、反応3と4)。 この反応は、消費するラジカルよりも多くの反応性ラジカルを生成するため、反応が加速されます。これが爆発的な反応の根拠です。

このラジカル反応は、必ずしも図1に示された通りの順序で起こるとは限りません。言及されていない他のラジカルが他の連鎖反応スキームによって生成されることもあります。 推進剤混合物、圧力、そして温度も、H2燃焼の速度論的メカニズムに影響を与えます。

アルテミスのためのエンジン設計の進歩

現代のロケットの推進力を最大限に引き出すには、燃料の最適化だけでなく、ロケットエンジンの設計も同じぐらい重要です。 今日のロケットエンジンの設計は、第二次世界大戦中のドイツのV2ロケット計画で開発された基礎的イノベーションを活用しています。 新たな素材が利用可能になり、その他の技術革新が実現したことで、エンジニアは従来の設計を進化させ、現代の宇宙探査ミッションに必要な出力、耐久性、信頼性、効率を向上させることができるようになりました。

1970年代にAerojet Rocketdyne社によって設計されたRS-25エンジンは、もともとNASAのスペースシャトル計画用に開発そして使用されたものです。 それから5世代の技術革新を経て、アルテミス計画のSLSロケットの動力となるRS-25は、数十年にわたる技術の進歩と設計の最適化を取り入れた、洗練された極低温エンジンで、これまでに製造された中で最も効率的で強力なロケットエンジンのひとつになっています。

この強力で安定した推力を生み出すためには、ターボポンプを用いて、ロケットエンジンに大量の高速度液体推進剤を供給する必要があります。 最初のバージョンのターボポンプ(図2)は、1940年代にV2のエンジニアにより開発されたものです。 それは画期的な設計と性能で、1台の蒸気タービンが4,000 rpmで回転し、燃料と酸化剤の双方の遠心ポンプを駆動するというものでした。 それから60年以上経った今でも、現代仕様になってもまだ、ターボポンプは最新のロケットエンジンの性能を左右する最も重要で複雑な部品のひとつです。

米国の有人ロケット推進技術の進化

Figure2_rocket_SS_0
図2 V-2ターボポンプの断面図、提供:
Enginehistory.org. " data-entity-type="file" data-entity-uuid="eae9ddc9-afb9-4e24-86fc-f4360b919415" src="/sites/default/files/inline-images/Figure2_rocket_SS_0.JPG" />

 

アルテミスロケットのRS-25エンジンは、比推力に優れるLOX/LH2極低温推進剤パッケージを採用しています。 ところが、LH2とLOXの密度と流量には大きな差があることから、RS-25では単一のターボポンプで運用させることができません。 水素の密度は極めて低いため (71g/L)、効率的な燃焼を行うためには、LOXの量に比例して2.7倍の量のLH2が必要になるということを意味します。 このようにまったく異なる極低温の液体とその物理的特性に対応するため、RS-25は別々の2基のターボポンプを使用しています。

これら現代の高圧ターボポンプは、工学技術の偉業です。 タービンには、25セントコイン1枚ほどのサイズのブレードが何十枚も組み込まれています。 毎分28,000~35,000回転するブレードは、それぞれが1台のシボレーコルベットのエンジンより大きなパワーを供給し、その結果、このターボポンプは数万馬力を出力することができるのです。

宇宙への夢が推し進める各業界の技術革新

宇宙開発プログラムが明確にイノベーションを推進している分野は、ロケット燃料やエンジン技術です。 しかしそれだけにとどまらず、人類が再び月に向かい、最終的には火星に到達するという現在の目標は、医学や材料科学、通信、エレクトロニクス、さらには農業など、幅広い業界で新たな研究を加速させる触媒にもなっています。 こうした技術革新の多くは、宇宙探査ミッションを実現させるだけでなく、地球上の私たちすべてに恩恵をもたらす製品の改良にもつながっているのです。

アルテミス計画において開発が進んでいるその他の技術に関しては、 月とその先へと向かう宇宙飛行士を栄養面で支える食品科学のイノベーションをお読みください。

R&D Insights - 将来のためのサステナブルな触媒

CAS Science Team

INSGENENGBRO101249-CAS-Insights-Executive-Summary-Sustainable-Catalysts-1920x1080-Hero

グリーンケミストリーは、グリーンな触媒から始まります。では、この新興の研究分野の最新の動向はどうなっているのでしょうか。 触媒はさまざまな業界、分野、研究開発のラボで不可欠なものです。そしてCASの最新のサマリーでは、新たな機会や課題、そしてイノベーションも見つかっています。 エネルギー、農業、製薬など、あらゆる産業において、これは持続可能性の指標を向上させる重要な要素となる可能性があります。

INSGENENGBRO101249-CAS-Insights-Executive-Summary-Sustainable-Catalysts-Fanned image

大規模言語モデルは科学研究に適しているのか

Philippe Ayala , Data Science Technical Manager

Senior chemistry professor writing on the board

AIツールや専門アプリケーションではなぜ大きいほどよいとは限らないのか

2022年のリリース以来、ChatGPTはAIをめぐる議論を大きく変えました。 奇跡とも脅威とも言われ、仕事に革命を起こすとか、都市を活性化するなどのポジティブな見込みから、人間の仕事を取り上げるというネガティブな影響まで、この大規模言語モデル(LLM)は、ほとんど何から何までできるように言われています。

ChatGPTとGPT-3/GPT-4は何が違うのか

ChatGPTと、GPTに数字が付いたLLM(GPT-3やGPT-4など)には重要な違いがあります。 これらはよく混同されたり、同じ意味で使われたりしていますが、ChatGPTは、より複雑なLLM(GPT-3またはGPT-4)上で動作する「使いやすい」インターフェースを持つチャットボットのアプリ部分のことです。

GPT-3とGPT-4はGenerative Pre-Trained Transformerモデルの異なったバージョンを指しています。 トランスフォーマーとは、ニューラルネットワークの一種で、言語モデルと呼ばれています。 これらのモデルは、学習することにより、文章中の単語のように緩く構造化されたデータのパターンと文脈を認識できるようになります。 トランスフォーマーは特にそれが得意なモデルです。 生成モデルは、文脈が与えられると、プロンプトから任意の長さの出力を生成することができます。 そしてGPTモデルは、この2種類のモデルを組み合わせたものになっています。

一方、ChatGPTは、GPT-3やGPT-4などのLLMの上に乗っかるアプリです。 以前の会話を継続させるためのメモリーモジュールがあり、有害または不適切な回答を最小限に抑えるフィルターや分類機能なども内蔵されています。

chat-gpt-LLM

LLMの構築には何が必要か

LLMはなかなかのものです。 GPT-3には1,750億のパラメーター、つまり学習しながらモデルが独自に変更できる値の数が、それだけあります。 2023年に発表されたGPTシリーズの最新版のGPT-4では、さらに多い1兆個のパラメータがあります。 GPT-4の使用経験がある人なら誰もが知っているように、これらのモデルは驚くほど幅広い知識を持ち、首尾一貫した情報を生み出す驚異的な能力があります。

ただし、この能力には文字通りコストが伴います。 ますます規模が大きくなるGPTモデルをトレーニングし、そしてChatGPTのようなアプリを展開することは、とてつもないエンジニアリングの偉業と言えます。 GPT-3の構築には460万ドル、そしてクラウドでの運用には少なくとも年間8.7万ドルかかっていると推定されています。 GPT-4の開発費は、おそらく1億ドルかそれ以上になっているはずです。

上記の額に加え、ハードウェアの膨大なコストと、運用し続けるためのリソース、またデータセンターの冷却も必要になってきます。 データセンターは何十億ガロンもの水を使用することもあり、また空調は電力を消費し、排ガスに寄与するため、導入を検討する組織は、この強力なツールのコストとメリットを評価せざるを得なくなります。 この初期費用と継続的なコストのため、LLMはほとんどの民間企業、学術機関、そして公共機関にとってすでに法外に高額なものとなっており、今後もモデルの規模が拡大し、またより強力になるに伴い、この傾向は続くことでしょう。

LLMの限界

特定の構造コンポーネントのお陰で、トランスフォーマーモデルは異なる入力間の関係を捕捉し、そして膨大な量のサンプルテキストのお陰で、最新LLMではテキストの大まかな意味を抽出し、テキストの各要素間の関係を非常にうまく追跡できるようになりました。 GPT-3のような生成モデルでは、さらに一歩進んで、質問と回答の両方で、こういった関係を追跡することを学んでいます。 その結果は、多くの場合で説得力があるものになっています。 ChatGPTに0と100の間の数字を求めたり、コレステロールがステロイドかどうかを質問したら、おそらく正しい答えが返ってくるでしょう。

しかし、科学研究のような専門的用途の場合、大規模言語モデルでは、大まかな意味以上の、微妙な差異がある具体的情報を理解するのに苦労する場合があります。 それはどうしてでしょうか。 まず、LLMは「Garbage In, Garbage Out(ゴミを入れたら、ゴミが出てくる」の問題に影響を受けずには済まないということが挙げられます。 次に、高品質のトレーニングデータがあっても、関連するトレーニング情報が不足している場合があります。

広範囲で、頻繁に記述されるトピックはLLMで的確に捕捉される一方、範囲が狭く専門的なトピックは、ほとんどの場合不足しており、そこではそれほど的確に処理されません。 例えば、大規模言語モデルが適切な抽象レベルに達した結果、あるものがステロイド分子であるかを判断できるようになったとします。 同族の2種のステロイド分子を区別することさえできます。しかしどちらかが非常に有毒で、どちらかがそうでないかを一貫して認識することはできません。 大規模言語モデルでそれが区別できるかどうかは、トレーニングに使われたデータと、正しい情報が認識され「記憶」されたかどうかに依存します。 正解が、間違った情報や矛盾する情報の山に隠されていたら、モデルはそれを導き出す方法はないのです。

データの量を増やし、よりクリーンなデータを用い、そしてより大きいモデル使えば、問題が解決すると反論する人もいるかもしれません。 それは正しいかもしれません。しかし、生成LLMに0から100の間の乱数を求めた場合どうなるでしょうか。 回答が実際に乱数であると確信できるでしょうか。 この質問に答えるには、語彙意味論や記憶された事実を超え、LLMを超え、AIエージェントまで行く必要があります。 そうすればエージェントは、検証された手続きを使って実行可能なコードを構築し、それを別のプロセスに渡して実行させ、結果を処理してユーザーに回答を返すでしょう。

科学データに固有の課題

CASの科学者たちが理解しているとおり、科学データとはテキストだけよりも、はるかに複雑です。そして、ほとんどの問題は、1つか2つの質問だけでは表現しきれません。

科学の研究にAI主導のツールを使うときは、わたしたちは、どんな問題を解こうとしているのか、と自問する必要があります。 多くの問題は、言語または緩く構造化されたシーケンスを含むため、言語モデルは完璧に適合します。 しかし表データや分類データ、ナレッジグラフ、時系列データについてはどうでしょうか。 これらのデータは科学研究に必要です。しかしLLMでは必ずしもそれらを活用することはできません。 つまり、LLMだけでは分子研究のような用途に必要なレベルの具体性を提供できないということなのです。 代わりに、オーケストラがまとまった音を出すためには多数の楽器を必要とするように、科学ではまとまった結果を出すためにはAIツールボックスに複数のツールが必要なのです。

幅広さと深さを伴ったシステムアプローチ

LLM単独では科学研究に適していないとしたら、では何が良いのでしょうか。 それは、複数の種類のモデルを用いて特化した出力を生成させる、システムアプローチです。 言語モデルやニューラルネットワークを、従来の機械学習ツール、ナレッジグラフ、化学情報学、バイオインフォマティクス、さらにはTF-IDFなどの統計的手法と組み合わせて多層化することで、研究者はAI主導のプログラムにおいて、深くそしてニュアンスのある情報を含めることが可能になります。

こういったツールは、新薬分子の開発や新規化合物の創出などのタスクに必要とされる、具体的な結果を提供できます。 ナレッジグラフは、分子、反応、発表済みの論文、管理された概念など、既知のエンティティを確実に関連付けるグラウンドトゥルースとして機能するため、特に有意義です。理想的な使用事例では、「これは特定の種類の物質だ」と回答できるディープニューラルネットワークと、その正確性を検証するナレッジグラフを活用するものになります。 このようにして、科学研究に求められる信頼性の高い事実を得るのです。

この種のシステムアプローチは、本質的にはデータの信頼性を向上させるための事実確認や検証機能であり、専門的な用途で効果を発揮しています。 例えば、NVIDIAが最近リリースしたPrismerは、画像に関する質問に答えたり、画像のキャプションを提供したりするために設計された、ビジョン言語モデルです。 このモデルは、複数の小さなサブモデルをトレーニングする Mixture of Experts アプローチを採用しています。 このモデルがもたらす知識の深さのお陰で、大規模なトレーニングなしで質の高い結果を得ることができました。10倍から20倍のデータでトレーニングされたモデルに匹敵する性能を発揮しています。

Googleも同様のアプローチに取り組んでおり、そこでは汎用の「教師」言語モデルから知識を抽出して、より小さな「生徒」モデルに知識を与えています。 生徒モデルは、より深い知識を有するため、大規模モデルよりも優れた情報を提示します。7.7億のパラメータでトレーニングされた生徒モデルは、ある特殊な推論タスクにおいて、5,400億のパラメータを持つ教師モデルを上回りました。 より小規模のモデルはトレーニングに時間がかかる一方、コストが安く高速に実行できるため、その継続的な効率の向上に価値があります。

科学研究の改善

システムアプローチのもうひとつの成功例は、CASで私と同僚が開発したPaSE(特許類似性エンジン)です。これは、CAS STNextCAS SciFinderのユニークな機能を支えています。 このモデルは、ブラジルの特許庁である、ブラジル国立工業所有権機関(INPI)との共同研究の一環として構築されました。 調査員が手つかずの特許バックログに対処できるよう、膨大な情報を数分で処理できるように設計されたものです。

このソリューションには、GPTファミリーと同じ重要な機械学習技術を使用する言語モデルが含まれており、それにナレッジグラフや化学情報学、そして従来の情報検索統計手法など、追加の学習タイプのレイヤーが重ねられています。 PaSEは、CAS コンテンツコレクションTMに含まれる特許や学術論文のフルテキストなど、世界中の科学情報を使ってモデルをトレーニングすることにより、手作業で検索するよりも50%速く「先行技術」を見つけるために必要な深さと幅広さを実現しました。

特許庁で特に難しいのは、何かが存在しないことを証明することです。 「証拠が無いということは無いことの証拠にはならない」という言葉を思い浮かべればわかります。CASのデータサイエンティストは、特許サーチャーの専門家、ブラジルINPIチーム、および独自のAIツールの組み合わせと連携してモデルをトレーニングおよび最適化した結果、手作業での検索を40%減らして先行技術を特定することができたのです。 この性能、そして特許バックログが減ったことにより、2021年にPatent Information Users GroupStu Kaback Business Impact Awardを受賞しました。

科学における大規模言語モデルの前途

上記の経験からもわかるように、LLMは今後も科学研究において重要な役割を持ち続けるでしょう。しかし、一般に信じられているのとは逆に、このツールはあらゆる問題や疑問に対する万能薬ではありません。

私は、家の中の散らかった部屋、例えばクローゼットや屋根裏部屋の整理整頓という観点から、これらのモデルを考えると分かりやすいと思っています。 そういった部屋にあるものの整理方法は、人によってさまざまです。 すべてを色で分類して整理する人もいれば、貴重品をひとまとめにする人、または機能別に整理する人などもいるでしょう。 どの方法も間違ってはいません。しかしそれは自分が望む、あるいは必要とする整理の方法ではないかもしれません。 これは基本的にLLMの問題を表しています。LLMがある特定の方法で情報を整理しても、それは科学者や研究者が求める方法ではないかもしれないわけです。

タンパク質配列、特許情報、化学構造など、ユーザーが特定の結果を必要とする専門的な用途の場合、その特定の方法で情報を整理して処理するように、AI搭載モデルをトレーニングする必要があります。 最適なトレーニングと予測を行うには、ユーザーが望む方法でデータ、結果、変数を整理する必要があります。

そのデータの影響、その表現、科学における予測を向上させているモデルについてより詳しく知るには、CAS Custom Services のケーススタディをお読みください。 AIと化学において新たに登場している状勢について詳しく知りたい方は、 AIが化学にもたらすチャンスに関する最新のホワイトペーパーや、AIがいかに世界中の特許事務所の生産性を向上させるかを説明したリソースをご覧ください。

を購読