
化学与材料信息学起步的五个关键步骤
科学家开发的知识量激增,科学出版物每 9 年便翻一番。研究人员现在正努力应对现有研究的巨大复杂性。有望从科学文献中带来更大创新和更深刻见解的技术是机器学习(ML)和人工智能(AI),但是机构该如何准备进入这个新的领域?
我最近参加了一个专题讨论会,旨在探讨数据驱动的化学和材料领域的科学发现。该研讨会由美国化学文摘社(CAS)和Citrine Informatics联合主办,加州理工计算机材料设计专业的助理教授Erik Sapper和Citrine Informatics的数据工程经理Gustavo Guzman也出席了该研讨会。我们讨论了机构中如何开始在其研发项目中利用机器学习取得切实的成功。
将直觉与数据结合起来远比仅凭直觉强大得多。因此,无论您的组织是刚开始使用机器学习还是已经开始机器学习项目,我希望以下建议有助于您取得信息学之旅的成功。
第 1 步:提炼业务目标
充分认识到任何信息学倡议的价值,重要的是清楚定义机构要实现的目标。例如,在预测具体结果时,您的业务需要采取哪些评估才能更加准确?是否需要节省时间或成本才能使流程或活动具有竞争力?如果以可量化和精确的术语定义业务目标,那么您将更有可能应用适当的工具、方法和数据来取得成功。
成功的机器学习方法仍然需要大量的人类专业知识和扎实的数据基础。机器学习不会自己提出新的想法,相反,它可以通过识别人类难以或不可能发现的基础数据模式来帮助化学家和材料科学家更好、更有效地完成工作。与主要业务推动者保持一致时,机器学习可以通过验证或否定想法来为整个业务范围内的研究决策提供依据,从而使科学家能够自动化其实验设计活动或确定何时继续或结束实验室中的项目。
第 2 步:将数据识别和收集的重点放在“是什么”和“为什么”上
除了清楚地了解业务问题之外,从机器学习中获得最大收益的组织还应该提前了解和准备数据,并根据关键绩效指标构建和评估模型。在以机器学习为动力的预测和发现中,首先考虑你要学习的核心问题是什么,它是一个图片、一个化学结构还是一个聚合物配方。接下来,考虑为什么要寻找这个特征集,例如,预测一个配方的分子密度或抗拉强度。为了支持您的特定模型的学习,拥有足够的数据是很重要的,这样您的模型就可以达到您所寻求的准确性和结果。
第 3 步:优先考虑数据质量和多样性
模型的好坏取决于驱动它的数据。借助恰当种类和数量的高质量数据,科学家可以从他们的模型中获得洞察力,以帮助他们在实验室中提高项目的成功率。科学数据带来了特殊的挑战,需要专业知识来解释其细微差别和复杂性。例如,数据经常整合自有不同表示和命名的数据源。当不同的分子不正确地被合并到一条记录中,或者同一分子在多条记录中被分解时,就会导致错误。这一挑战可以通过开发一个统一的数据管理方案来克服,该方案包括计划、执行和信息规范化等任务。 您可以下载案例研究来了解CAS是如何帮助一家大型化工公司制定统一的数据管理策略的。
除了确保数据质量之外,确保您拥有实现业务目标所需的数据多样性也很重要。基于内部数据的模型训练可以将算法的输出限制在一个较窄的域内,防止模型对新数据的泛化。为特征集增加更多的多样性,可以为模型提供对科学前景的扩展视图,更重要的是,它还带来了做出更新颖、更有价值的预测。 您可以下载案例研究,以了解 CAS 如何定制数据以扩展训练集并生成创新的机器学习预测。
第 4 步:重新考虑数据管理方法
机器学习需要考虑如何收集和存储数据。仅仅改进数据存储的位置是不够的。正如Gustavo在专题讨论中强调的,机器学习的数据存储需求可能有特殊的要求。实验室必须确保他们的数据是机器可读的,可计算的,并存储有足够的上下文可互操作。例如,在定义一种材料时,需要有足够的上下文来了解一种材料是否与另一种材料类似,或者商业来源是否相关。数据建模应该捕获整个上下文; 捕获数据点之间的语义链接可能有助于您的最终产品。
考虑到对大量、结构良好的数据的需求,在工作流程中考虑机器学习的组织必须检查其信息体系结构和IT基础架构,因为这对于现代信息学方法来说可能是不够的。在适当的数据准备、建模和治理方面缺乏投资将会给您的数据科学家带来负担,这将极大地减缓您的机器学习项目并浪费数据科学家在数据工程任务上的时间。
第 5 步:边进行边迭代
千里之行始于足下。确保您始终关注要解决的业务问题。从数据无法支持的过于复杂的学习目标开始,可能会导致您错过优化和解决项目问题的机会。在改进模型、获得洞察力和放大机器学习能力时,可以添加和扩展内容集。迭代和连续的机器学习提供了更快地达到实验设计目标的方法。此外,正如Gustavo所强调,在需要的时候,记得向专业和有经验的合作伙伴寻求帮助:CAS提供了大量人工标引的、适合于机器学习的数据集,而 Citrine Informatics 为材料和化学信息学提供AI平台。
结论
总体而言,化学和材料研究领域的组织将从机器学习中受益匪浅。强大的预测需要高质量、格式一致、可靠、完整、具有足够数量的适当多样化的数据。研究小组必须积极地考虑如何构建和存储数据集,并有效地利用可用的专业知识来处理科学数据的复杂性。根据我们的经验和知识,Gustavo、Erik和我在充分讨论中详细讨论了机器学习的前景。倾听见解,有助于您取得信息之旅的成功。
精选内容
About CAS
CAS, a division of the American Chemical Society, partners with R&D organizations globally to provide actionable scientific insights that help them plan, innovate, protect their innovations, and predict how new markets and opportunities will evolve. Leverage our unparalleled content, specialized technology, and unmatched human expertise to customize solutions that will give your organization an information advantage.