3月 8, 2019 |

データの質は人工知能と機械学習にとって公然の秘密のソース

人工知能や機械学習のアルゴリズムが期待に沿うものでない場合、データが原因かもしれません。

人工知能の導入は急成長

人工知能の到来は未来のことのように感じられてきましたが、現実には多くの会社がすでに人工知能イニシアチブを取り入れています。特に科学的研究開発の領域でそう言えます。ここ何年かで、定量的構造活性相関モデルからゲノミクスに至るまで、全てにおいて機械学習や人工知能イニシアチブが大きく増加しています。 2018年の調査によれば、人工知能の導入は2017年の38%から2018年の61%へと、急増しています。これは、医療、製造、金融サービスを含む様々な業界で起きました。しかし、最も早い時期に導入したところでは、導入を成功させるうえで最も大きな課題はデータ、特に人工知能イニシアチブのためのデータへのアクセス、保護、統合、そして準備であったとしています。

危険、データのもたらす課題が待っている

会社が人工知能アルゴリズムをデザインし導入するのに必要な才能に多額の投資をしている一方で、イニシアチブの成功は、作成そしてテストの基となる試行用のデータにかかっています。多くの企業は、プロジェクトをサポートするのに必要な膨大な量の非構造化データを管理したり、それをアルゴリズムにフィードする上で必要となる、カテゴライズされた利用可能なトレーニングセットに変換することに苦労しています。データに溺れてしまっている企業もあれば、パブリックドメインにおいて入手が容易ではない、専門性の高い科学データを探し求めている企業もあります。入手可能なデータセットは、入手してから意図する目的のために変換するまで長い時間がかかりがちです。タクソノミーや分類法から異なるデータセットの関連付けに至るまで、AIイニシアチブは機械学習の可能性を解き放つために膨大なデータ準備を必要とします。

科学技術研究開発における利益性の高いデジタル変革に関するホワイトペーパーをダウンロードして詳細を参照するか、特定のニーズについて検討するために弊社にお問い合わせください。

弊社のデータサービスを今すぐご活用ください

データサイエンティストは作業時間の最大80％をデータラングリングと準備に費やしています。科学データのための様々な公開リポジトリが存在しますが、すべて転写エラー、誤表示ユニット、および過度に複雑な特許用語などの課題を内在しています。もう一つの課題は、外国語の内容を翻訳することです。例えば、特許は世界中で60ヶ国語以上の言語によって公開されています。 AIプロジェクトの成功には、関連データを素早く翻訳、抽出、関連付け、正規化できることが極めて重要です。親和性の指標で3または6違ってしまえば、アルゴリズムから正確な予測を得ることは不可能です。データサイエンティストが、正規化と品質検査を経て、正しい意味的繋がりを持つと認められた総合的データを使う時は、データ準備の代わりに、アルゴリズムの最適化にエネルギーを注ぐことができます。

残念ながら、データを検索するチームは、公開リソースを利用したり、データの分類・準備になるべく時間を費やさないようにすることが多いのです。チームが非構造化科学データ、60の異なる言語による特許、および複雑な反応スキームに取り組んでいる際に、このタイプのデータを有意義な形で分類し関連付けるのは簡単ではないと気づきます。機械学習を改善する機会を評価する際は、データの正確性や総合性だけでなく、データ準備の機会費用などすべてを考慮に入れるべきです。もしAI由来の予測が期待に応えるものでなければ、データ自体が結果を狂わせている可能性が高いのです。

高品質データとは何でしょうか。

諺にあるように、シーフード、医療、またはトレーニングデータであろうと、質が重要です。格安の寿司を食べない方が良いのと同様、低品質データをアルゴリズムに入力すべきではありません。高品質データのもつ可能性を最大限に発揮させるには、データがクリーンで、正しい意味論的意味とつながりで正規化されていることが必要です。このレベルの質は容易に得られるものではありません。 CAS の科学専門家は、特許用語や刊行物に見られる新しい傾向に関する深い理解、そしてノイズからシグナルを特定する外国語の専門知識を兼ね備えています。分類法、意味論上のつながり、そしてデータ分類の分野における彼らの専門的知識は、高品質データセットの構築と維持に不可欠な必須能力です。

高品質データに投資する利点

CAS の当チームは、現在、弊社コンテンツコレクションを様々なAIや機械学習アプリケーションに適用するプロジェクトをいくつか進めています。事実、弊社の優れたデータサイエンティストの一人、ジャロン・マックスソンの成果を基にした特許出願を最近行なったところです。彼は、機械学習と CAS のコンテンツコレクションを活用して、化学物質分野における課題を解決することに関心を持っていました。特に、彼は新しく開発されたポリマーの実用性をアルゴリズムが正確に予測できるかを知りたかったのです。研究者たちは特殊な性質を持った新規ポリマーを作成していますが、これらの化合物に最適な適用方法を見つけるのに苦労しています。成功すれば、ジャロンのアルゴリズムは、新規開発の商業的応用を数多くこなすことによって、ポリマー研究の投資回収率を上げることができるかもしれません。

組み合わせ論の法則により、ポリマーはその性質上、どの分類体系にとっても最も困難な課題を突きつけるグループの一つです。ポリマーに関するもう一つの大きい課題は、ポリマー機能の測定可能な定義を決めることにあります。ポリマー機能化は、一般に認められた手法が存在しません。この点において、CAS の長年にわたる分類体系がこの混乱した特性に新しいタイプの定義をもたらすことができたのです。化学における既定領域を使ってポリマー機能を表すことにより、伝統的にインデックス化されたデータを新規に活用することが可能になりました。

何百もの潜在的な特性を持つポリマーは、理論上も現実にも何百万も存在しますが、ジャロンは CAS の科学者たちが文献から知識別にインデックス化された高品質特性データの小セットを用いて、応用のための予測モデルを構築することができました。結果は期待できるものです。これらのポリマーに少なくとも3つの入力特性を使用した場合、アルゴリズムは、統計的に重要な予測精度が66%であることを実証しました。

まだ概念の正当性の証明としては初期段階ですが、三つの重要な点を明示しています。

CAS データの品質、独自の分類体系や歴史的範囲は、これまで整理されていなかった価値を定義する新しい方法を科学者にもたらす点で有益であること。
多様かつ包括的なモデル用トレーニングセットを使うことで、少ないデータ準備で優れた予測を生み出すことが可能であること。
CAS の総合的なデータコレクションは容易にカスタマイズすることができ、特定のアルゴリズムのニーズに対応できること。特性データ、ポリマー、雑誌論文における反応、特許から学位論文まで、無限の可能性が存在すること。

AIや機会学習の取り組みが期待に沿わず、貴社チームがデータの課題で苦戦を強いられている場合は、弊社にご相談ください。突破口のより速い発見、効率性の向上、および優れた意思決定のために、弊社のデータや機械学習に関する専門知識をいかに活用できるかご説明いたします。今すぐご連絡ください!

Subscribe to CAS Insights