
化学と材料の情報科学を開始する主な5つの手順
9年ごとに科学的出版物が倍増している状況で、科学者がこれまで蓄積してきた知識の量は膨大です。研究者は現在、利用可能な研究が圧倒的に複雑であるため、その処理に苦心しています。この膨大な科学文献から優れたイノベーションと詳細にわたる情報を生み出すことが期待されている技術は、機械学習(ML)と人工知能(AI)です。しかし、組織はどのようにこの新たな世界に飛び込めばいいのでしょうか。
最近、私はデータ中心の化学と材料発見を検討するパネルディスカッションに参加しました。CASとCitrine Informaticsが共同でプレゼンテーションを行ったパネルでは、カリフォルニア・ポリテクニック州立大学で材料計算設計を専攻しているエリック・サッパー助教授とCitrine Informaticsでデータエンジニアリングマネージャーを担当しているグスタボ・グズマン氏も登場しました。組織が研究開発プロジェクトで目に見える成果を収めるために、どのようにMLを開始できるかについて話し合いました。
データと組み合わせることで直感は大きな力を持ちます。貴組織がMLを導入し始めたばかりでも、すでにMLプログラムを始動している場合でも、これらの推奨事項が貴組織の情報科学の発展に役立つことでしょう。
詳しい内容と例については、パネルディスカッション全編をご覧ください。
手順1:ビジネス目標の的を絞る
情報科学に関する取り組みで価値を得るには、貴組織が何を達成しようとしているかを明確に定義しておくことが重要です。例えば、特定の結果を予測する際に、どの測定基準でより正確にする必要があるのか、あるプロセスやアクティビティで競争力を高めるために時間の短縮とコストの削減が必要なのか、などが考えられます。定量化できる正確な基準でビジネス目標を定義できれば、より適切なツール、方法、データを利用して成果を上げる可能性が高まることでしょう。
成功するML手法には、多大な人の専門知識と強固なデータ基盤が必要です。MLのみで新たなアイデアが得られるわけではありません。MLは、人による解析が困難または不可能な隠れたデータのパターンを特定することで、化学者と材料科学者の業務効率を高めます。主なビジネス目標と方向性を合わせることで、MLはアイデアの検証と反証、科学者の実験デザインアクティビティの自動化、ラボにおけるプロジェクトの継続と中断の判断などを支援し、結果としてビジネス全体の研究に関する意思決定に必要な情報を提供します。
手順2:対象と理由に関するデータの識別と収集に集中する
MLから大きな成果を上げる組織は、ビジネスの問題点を正確に把握していることに加えて、事前に所有しているデータを理解して準備し、主なパフォーマンス指標を使用して自分たちのモデルを構築および評価しています。MLに基づく予測と発見では、疑問の中心となる学習対象(写真、化学構造、分子構成など)を最初に検討します。次に、例えば、処方の分子密度や引っ張り強度の予測など、この機能セットを検出する目的を検討します。特定モデルの学習を支援するには、正確性に加えて、目的とする結果をモデルで得られるように、十分なデータを用意することが重要です。
手順3:データの品質と多様性を優先する
モデルは、データが不十分では効力を発しません。高品質で多様性のあるデータを十分な量、確保できれば、科学者はモデルから情報を得て、ラボにおけるプロジェクトの成功確率を高めることができます。科学的データは固有の課題をもたらします。細かな差異と複雑な情報を考慮に入れる専門知識が求められます。例えば、データは異なる表現と用語を用いる様々なソースから集められることが多いため、異なる分子が誤って単一のレコードに統合されたり、同じ分子が複数のレコードに分散されたりなど、エラーが発生しやすくなります。この問題は、情報の標準化などの計画、実行、タスクを含む一元的なデータ管理イニシアチブを策定することで克服することが可能になります。 ケーススタディをダウンロードして、ある化学関連の企業のためにCASがどのように一元的なデータ管理戦略を策定したかをご覧ください。
データの品質に加え、ビジネスの目標を達成するために必要なデータの多様性を確保することも重要です。内部のデータのみを使用したモデルのトレーニングは、アルゴリズムの出力範囲を狭い領域に限定し、新しいデータに対するモデルの一般化の可能性を妨げます。機能セットに多様性を追加することで、モデルに科学的展望の拡張的な視点を与え、より新規性の高い、価値ある予測を実現することができます。 ケーススタディをダウンロードして、CASがどのようにデータをカスタム収集してトレーニングセットを拡張し、革新的なML予測を実現したかをご覧ください。
手順4:データ管理に対するアプローチを再検討する
MLでは、データの収集方法と保管方法について、新たに検討する必要があります。データの保管場所を改善するだけでは不十分です。グスタボがパネルディスカッションで指摘したように、MLのデータストレージには特別な要件が必要となります。ラボは機械的に読み取り可能かつ計算処理可能で、相互運用性を確保できる十分なコンテキストと共にデータを保管する必要があります。ある材料を定義するときは、その材料が別の材料と比較できるもなのか、商業的な供給元が妥当であるのか、など知っておくべき十分なコンテキストが必要です。データモデリングではコンテキストすべてをキャプチャする必要があります。データポイント間の意味的なリンクを取得しておくと、最終的な製品に有用でしょう。
適切に構造化された豊富なデータの必要性を受け、ワークフローにMLの導入を検討している組織は、自組織の情報構造とITインフラストラクチャを評価する必要があります。現代の情報科学アプローチには不十分である可能性が高いからです。適切なデータの準備に対する投資が不足していると、モデリングと管理の負担はデータ科学者の双肩にかかります。これはMLプロジェクトの進捗を遅らせ、データエンジニアリング作業にかけるべきデータ科学者の時間を無駄にします。
手順5:反復的に実行する
計画は長期的に立て、実行は少しずつ始めましょう。解決すべきビジネスの課題に継続的に注力できていることを確認してください。手持ちのデータでは対応しきれない過度に複雑な学習目標に向けて開始すると、プロジェクトを高度化してトラブルシューティングしていく機会を失うことになりかねません。コンテンツセットは、モデルの改善、インサイトの獲得、ML機能の拡大に合わせて、後から追加して拡張できます。反復的かつ逐次的なMLの実行は、実験的デザインの目標に迅速に到達する手段となります。また、グスタボが強調するように、必要に応じて専門的で経験豊富なパートナーに支援を求めることを忘れないでください。CASは収集された、MLに適した無数のデータセットを提供しており、Citrine Informaticsは材料と化学的な情報科学向けAIプラットフォームを提供しています。
結論
全般的に化学と材料研究分野の組織には、MLは多大なメリットを与えてくれます。強力な予測には、信頼できる整合性を持ち、高品質で一貫的な形式に揃えられ、十分な量と適切な多様性のあるデータが必要です。研究グループはデータセットの構築と保存方法を事前に検討し、複雑な科学的データを適切に処理する利用可能な専門知識を効果的に活用しなければなりません。グスタボとエリックと私は、自分たちの経験と知識を踏まえて、ディスカッション全編でMLが約束する未来について説明しています。貴組織の情報科学の成功に役立つ内容をご覧ください。
CASが提供するカスタムサービスは、多くの組織のMLプロジェクトをすでに数多く成功に導いています。弊社が、どのようにして貴組織のお役に立てるか詳細を知りたい方は、今すぐご連絡ください。
特集コンテンツ
About CAS
CAS, a division of the American Chemical Society, partners with R&D organizations globally to provide actionable scientific insights that help them plan, innovate, protect their innovations, and predict how new markets and opportunities will evolve. Leverage our unparalleled content, specialized technology, and unmatched human expertise to customize solutions that will give your organization an information advantage.