人工智能和机器学习在提高许多学科的研究效率方面表现出了巨大的潜力。但是,在研发应用中实施这些技术仍然存在诸多显而易见的挑战,也存在许多机遇,可以立足当下以求更大突破。实际上,据 Gartner 的一名分析师估计,有多达 85% 的人工智能推动项目无法实现其目标。正如我之前的博文所述,我和其他许多人都认为,影响这些成功率的主要差距之一是数据质量。
人工智能和机器学习在提高许多学科的研究效率方面表现出了巨大的潜力。但是,在研发应用中实施这些技术仍然存在诸多显而易见的挑战,也存在许多机遇,可以立足当下以求更大突破。实际上,据 Gartner 的一名分析师估计,有多达 85% 的人工智能推动项目无法实现其目标。正如我之前的博文所述,我和其他许多人都认为,影响这些成功率的主要差距之一是数据质量。

案例研究:数据质量对生物活性算法预测的影响
人工智能和机器学习在提高许多学科的研究效率方面表现出了巨大的潜力。但是,在研发应用中实施这些技术仍然存在诸多显而易见的挑战,也存在许多机遇,可以立足当下以求更大突破。实际上,据 Gartner 的一名分析师估计,有多达 85% 的人工智能推动项目无法实现其目标。 正如我之前的博文所述,我和其他许多人都认为,影响这些成功率的主要差距之一是数据质量。
评估数据质量的影响
CAS 团队最近努力回答的问题是:我们能否通过量化来评估数据质量对算法预测成功率的影响?(剧透)我们可以,并且我们最近在案例研究中发布了我们一项初步实验的数据。
立即下载案例研究,以查看实验的详细信息和完整结果。
为了建立有效的测试,我们的数据科学家识别了最近发表的期刊文章,其中强调了机器学习分类挑战。该研究的最初目的是通过算法预测近10,000种化合物对5个不同靶点的生物活性。在该原创论文中,作者使用扩展连通性指纹图谱(ECFP)(一种既定常用分子描述符)来预测 10,000 种化合物的活性。CAS 团队研究了该论文中所用的特定机器学习方法 (SVM),以了解用 CAS 增强的专有指纹和描述符替换 ECFPs 将如何影响结果的准确性。最初的影响非常显著,各标靶间的预测准确率平均提高逾 30%。
将卓越技术与高质量数据相结合,以提高成功率
作为一名数据科学家,我在近20年的时间里致力于将包括机器学习在内的数字技术应用于医疗保健领域,涉及的机构包括NIH、各种咨询机构和两家初创企业。数据科学的吸引力在于建立一个行之有效的算法所产生的令人难以置信的满足感和自豪感,这类算法提供的预测能够真正实现更好的决策,加快上市速度以及可能错过的独特洞见。然而,现实情况是,技术只是这场战斗的一小部分。调整数据策略通常可以对项目的成功率产生即使不是更大也是同样的影响。
CAS 无与伦比的内容合集具有独特价值
出于这个原因,CAS 的数据合集是当初吸引我加入该组织的关键驱动因素。我对这种高质量、广度的数据对人工智能和机器学习项目成功的影响有着独特的看法。CAS 的数据合集明确、规范化并且通过科学家 100 余年来建立的语义连接得以强化。我们的合集收录了化学反应和物质、生物序列、属性、关键词等,且每天从全球期刊、专利和许多其他来源中进行提取,并检查了大数据应用通常需要的 4 个 V:数据量 (volume)、多样性 (variety)、真实性 (veracity) 和处理速度 (velocity)。
通过 CAS 服务项目与研发部门的研究和技术领导者展开合作,帮助他们克服数据挑战,推动项目成功,对此我感到非常满足。有兴趣详细了解我们如何助您一臂之力吗?联系我的团队,讨论您的具体项目需求和挑战。
精选内容
About CAS
CAS, a division of the American Chemical Society, partners with R&D organizations globally to provide actionable scientific insights that help them plan, innovate, protect their innovations, and predict how new markets and opportunities will evolve. Leverage our unparalleled content, specialized technology, and unmatched human expertise to customize solutions that will give your organization an information advantage.