重要なデータの構築によりブラジルの生物多様性からイノベーション実現へ

Steven P. Watkins , Scientific Data Engineer

Brazil Biodiversity

かなり昔に撮り始めて今も増え続けている膨大な家族の写真コレクションを想像してみてください。 例えば、多くの人がよくやるように、整理箱など一か所にすべての写真を集めても写真はきちんと活用されず、コレクションとして価値が上がることもありません。 一枚の写真を見つけるのに長い時間がかかり、他の人とシェアをするのも困難です。 そんな訳で、整理箱の写真コレクションは開けられることも使われることもなく、たんすの肥やしになってしまいます。

現在のデジタルツールを使用すれば、以前に比べてはるかに簡単に写真を検索、シェア、整理することができます。 整理されたコレクションに素早く写真をアップロードして、世界中から閲覧できます。 このような手段が利用可能になった現在、人々は整理箱に写真をバラバラに詰め込むことをやめ、パワフルなデジタル写真コレクションとして収集することを選んでいます。

科学者は貴重な研究データについて、同様の課題に直面しています。 コンテンツを収集してまとめるだけでは十分ではありません。適切に構造化や組織化して整理しないと、開発者は情報をフル活用することはできません。 強固なデータ基盤は、日常的な研究から、AI、予測分析、機械学習などのデジタル技術の実装まで、研究開発のあらゆる活動に不可欠です。

ブラジルの生物多様性の保全

ブラジルには地球の生物多様性を構成する15~20%の種が存在しています。しかしその豊かな生物多様性のほとんどが未探索のままになっています。 整理された情報がないため、研究者が検索やスクリーニング、関連性のある化学物質との比較を実行することがきわめて困難になっています。 このことが、新たな標的を特定したり以前の発見をもとに構築すること、あるいは、イノベーションを推進する能力を大きく制限しています。。

その結果、サンパウロ州立大学(IQ-UNESP)の研究者たちは、ユニークなブラジルの生物多様性に関する関連情報にアクセスしやすくする画期的な方法を探し求めました。 希少種を絶滅の危機に追いやる都市化と森林伐採の拡大は、系統的に収集整理されたデータの必要性をさらに高めていました。 標本を迅速に処理して分類しないと、物質に関する情報は永遠に失われてしまうかもしれません。

貴重な情報を残すことの必要性は、2018年には危機的レベルに高まりました。大規模な火事でリオデジャネイロ国立博物館が焼失し、希少な標本が完全に失われたことで研究が阻害されたのです。 これを受け、CASの専門家はブラジルの科学コミュニティーに対する支援を拡張し、IQ-UNESPと提携して自然の生物活性化合物の情報を整理し、将来の研究に確実に利用できるようにしました。

CASの科学情報専門家とブラジルの天然物研究者とのコラボレーションにより、より洗練された形に整理された天然物のコレクションが構築されました。 データは公的に利用可能なNuBBE(Nucleus for Bioassays, Biosynthesis and Ecophysiology of Natural Products)データベースに体系的にまとめられました。サンパウロ州立大学化学研究所(IQ-UNESP)教授であるバンデラン・ボルザニ博士とサンパウロ大学サンカルロス物理学研究所(IFSC-USP)のアドリアノ・アンドリコプロ博士が立ち上げたプロジェクトです。

CASの専門家チームは、深い科学的知識と専門技能を駆使してデータを管理し、30,000件以上の関連する科学出版物から情報を抽出して処理しました。 完成した情報コンテンツは、ブラジルの天然生物活性化合物への容易なアクセスと有効利用を可能にし、イノベーションを支えています。

CASとIQ-UNESPのコラボレーションにより、ブラジルの豊かな生物多様性に関する54,000件以上の物質のデータコレクションがいかにして生み出されたか、その詳細はNuBBEデータベースのロゴケーススタディをダウンロードしてお読みください。

アクセスしやすい整理されたデータは洞察を後押しする

迅速なイノベーションの鍵となるのは効率性です。 信頼性の高い科学情報にアクセスして検索ができないことには、新たな発見への道は閉ざされます。 事実、データの整合性とアクセスのし易さの問題により、開発の全作業のうち10~20%が意味もなく繰り返される結果を引き起こしています。 したがって、研究チームは広範囲に渡り一貫性があり正確な科学情報およびビジネス情報にシームレスにアクセスする必要があります。さもないとコスト増大につながる遅延や誤りの危険にさらされます。

科学情報の量と複雑さは最近数十年で爆発的に増大し、相互につながりのない未整理のデータの混沌とした状況を生み出しました。 同一組織内のシステムであっても多種多様なソースがあり、様々な形式と質が異なるデータが混在しています。 このような状況で、しっかり整理され検索可能なデータレポジトリを作成して維持することは困難ですが、その重要性は計り知れません。

科学データの管理と監督責任に関するFAIRガイド原則によると、データを検索可能、アクセス可能、共同利用および再利用が可能な状態にしておくことが不可欠です。 正しい意味論上の意味とつながりを元にデータを整理し標準化することは容易ではなく、専門的なスキルと多大なリソースの投資を必要とします。 そのため多くの組織は、CASのような外部の専門家に委託し、迅速かつコスト効率に優れた方法でデータ資産の価値を最大化しています。

科学的専門知識によりデータの価値を最大化する

一貫性のある検証済みデータの強固な基盤があれば、研究チームと技術の効率良い発展が可能になります。 一例として、内部データのアクセス性と正確性に問題を抱えていた企業が、CASの協力のもと、自社のナレッジマネジメントシステムを統合して標準化したところ、その会社の研究者は年間3,300時間の作業短縮を実現しました

高品質なデータセットの構築と維持には専門知識が必要です。 CASは、50以上の言語の話者からなる何百人もの広範囲の専門分野にわたる科学者を擁しています。 アルゴリズムはデータ処理を支援することが可能ですが、分散した情報の断片の中で事実を解釈して関連性を見つける経験豊富な科学者の能力を置き換えるようなアルゴリズムは存在しません。

CASの専門家は貴組織の特定のプロジェクトに合わせてコンテンツのコレクションを収集整理します。 貴組織が求める要件に合わせて構築することでワークフローを合理化し、発見能力を増大させ、社内外のリソース投資の効果を強化して、幅広いイニシアチブを加速することができます。

CASのカスタムサービスは、すでに多くの組織でデータ収集と統合に関する重大な課題を解決するのに役立っています。 貴組織のデータが持つ力を最大限に生かす方法については、弊社までお問合せください