三月 29, 2019 |

利用机器学习加速材料科学创新

机器学习 (ML) 用途广泛，影响着我们的日常生活，甚至在我们不曾意识到的方面也深有影响。例如，亚马逊就率先采用机器学习推动产品推荐。该公司通过其人工智能和机器学习方面的努力，获得了巨大成功。

机器学习应用广泛，裨益良多，目前大多数研发组织都在大力发展数字策略，努力在材料科学领域实施机器学习。然而，这些团队面对的挑战在于科学数据往往十分复杂，且不连贯。机器学习系统依赖于结构清晰的高质量数据，因此就会造成问题。那么，材料科学公司可以如何有效应用机器学习，加速创新和发展呢？

在此我们将探索机器学习为组织带来的机会，研究三种克服实施过程中常见挑战的最佳策略。

利用机器学习改进材料科学研究与开发

在材料科学领域，机器学习的实施正处于早期阶段，我们尚需等待这项技术充分发挥潜力。但是，预计不需要多久机器学习就能帮助科学家制造出具备特定特性的新材料，而且比传统工具（如预测建模）更快、更高效。

例如有的科学家需要开发一种能够在极端温度下保持弹性的材料。在不久的将来，机器学习将能够预测哪种化学反应和实验条件最可能成功。这不仅将节约大量时间，无需检索大量论文和数据便能找到最佳切入点，也无需大量实验对材料进行优化，而且还将大大节约成本。

对于聚合物领域的从业者而言，这种好处尤其实用，因为对聚合物进行准确的预测尤其困难，这需要化学家拥有丰富的经验，接受过全面的培训，并且拥有广泛的专业知识。而且，即使经验最丰富的化学家也只能基于自身经验和他们所拥有的可用数据进行预测。如果使用采用机器学习算法和大数据的预测工具，科学家们就能缩小特定化学品和反应条件的范围，这远比人工操作更加快捷、准确。

这样，机器学习工具最终将帮助加速材料科学行业的创新，同时提高效率、降低成本。在塑料制造行业，我们已经看到，积极使用大数据和机器学习的公司比未使用的公司增长速度快 50%。请确保贵公司是早期采用者之一，以获得竞争优势，而不会落于人后。

领先的材料研发机构如何学会构建强大的数据框架来支持机器学习和人工智能 (AI) 等应用？阅读我们的案例研究。

如何成功实现机器学习

基于机器学习的工具能够明显促进组织发展，那么为什么这些工具没有在材料科学中广泛使用呢？简单来说，成功建立一个能够生成您所需结果的机器学习算法并不容易。您在开始机器学习旅程时可以仔细考虑以下三个主要方面：项目处理方法、数据基础以及如何处理多维数据。

1. 监控整个机器学习项目

机器学习能够从多个方面为公司带来发展机会。在开始阶段，重要的是要对结果拥有清晰的认识，并决定进行持续的必要投资。要实现机器学习项目的成功，公司的决策制定者就必须了解管理组织内部期望值的重要性，愿意在必要时改变流程以确保整个公司所有层面的一致性。例如，如果您在引进一种预测建模工具，则重要的是在引进时需要科学家参与。否则，科学家将更可能继续进行人工预测，导致公司无法享受拥有机器学习所能带来的利益。

一旦设定好您的机器学习项目目标，就必须要将项目作为一个整体看待。过分注重技术或者比较其他组织的使用是机器学习旅程中将会出现的杂音。但这是你的项目，技术如何实行会因每个组织各自不同的要求而不同。

同样，广泛的数据也大有裨益。注重全局、保证项目保持正轨而不是过分专注于数据的细节会更有益。请确保拥有数据收录和建模方面强大的专业知识，以确保以全局为重点，确保项目前进在最佳道路上。

2. 花时间建立强大的数据基础

与所有的数据系统一样，对于机器学习，收获多少取决于投入多少，因此最好以可靠、高质量的数据为基础建立机器学习算法，以便获得可靠的结果和预测。材料科学数据通常非常复杂，因此创建高质量的数据库并不是项简单的任务。这对项目而言是极其重要的基础，如果能够花时间建立高质量的数据库，实施机器学习后成功的几率会大大增加。

请考虑数据的数量以及数据是否完整。很多公司都在这一点上栽了跟头，尤其因为科学数据的记录方式并不总是一致，很容易产生断裂，这就意味着这样的数据无法用于机器学习训练过程。如果缺少相关数据会造成问题，可以向公共存储库、政府和商业合作伙伴收购或借用额外数据集，或者获得批准使用，以弥补这种断裂。以此获得以前收录的数据将大大加快数据收集过程，也可能为公司节约数百万美元，减少几个月的工作。

如果以公司拥有的数据作为机器学习训练的基础，则关键在于数据的超高质量和规范化。科学数据的报告可能不同，获得的信息本身也可能拥有多种格式，如文本、化学结构、图形和图表。因此，关键在于您的数据收集和管理过程中存在人工标引这一步。材料科学家和技术人员能够对信息元素进行审查和解读，这是机器学习无法实现的。这种人工标引需要更大的投入，但也能为未来几年带来更具价值、更有意义的数据。如果没有进行人工收录的资源，可以与 CAS 等其他组织合作，为您提供专家和专业技术，用于编制索引、收录科学数据，这样通常能让这个过程完成得更加迅速，并且具备较高的成本效益。

最后，确定高质量的数据后，制定简单的数据结构来支持您的数据库。严谨的数据结构加上高质量的数据集是进行有效的机器学习训练最好的工具。因为它们有助于技术识别和分析模式、趋势和关系，从而让预测更加准确。

3. 利用多维数据成功实现机器学习

材料科学数据无疑是多维的，拥有海量的输入与输出。这就对在行业内实施机器学习带来了挑战。即使拥有结构良好的高质量数据库，机器学习算法的预测能力和有效性也会因数据升维而降低。

但，并不是一切努力都付诸东流。目前已经大力投入研究算法，处理越来越复杂的多维数据。这类算法分为两类：监督式学习和非监督学习。简而言之，监督式学习是指结果已知时，系统基于输入-输出对示例对输入和输出进行匹配。非监督学习是指在结果未知情况下，系统在数据中找到答案。

如果没有进行人工收录的资源，可以与 CAS 等其他组织合作，为您提供专家和专业技术，用于编制索引、收录科学数据，这样通常能让这个过程完成得更加迅速，并且具备较高的成本效益。这种算法能够通过对数据进行降维更轻易地找到模式，而不需要参考以前的知识。从这一点很容易看出主成分分析能够如何应用于开发预测建模工具，因为它能够简化复杂的科学数据，并加以分析，然后会针对生成具备具体特征的材料所需的化学物质和条件提出建议。

采取何种方法克服多维数据带来的挑战最终将取决于公司机器学习项目的目标。寻求专业意见，了解现有算法是否适合公司的机器学习项目或者是否需要建立新的算法，将会有所帮助。

CAS 助您开启机器学习的旅程

机器学习拥有加速创新和发展的潜力，同时还能提高效率、降低成本。因此，您应该致力于充分利用这项技术的力量，从而获得和保持竞争优势。实施机器学习是复杂的投入项目；也是物有所值的项目。

在CAS，我们已经使用机器学习系统来阐释我们专业化管理的数据。立即联系我们，了解您可以如何将我们的数据库作为您的数据基础使用；联系我们的团队成员了解他们可以为您成功实施机器学习的旅程提供哪些帮助。 CAS 拥有 100 多年的丰富经验，没有谁比我们更了解科技信息的管理。

Subscribe to CAS Insights