CAS data experts Mark Schmidt, Jeff Wilson, and Nicole Stobart

生命科学领域创建权威结构的挑战与机遇

对话 CAS 专家 Nicole Stobart、Jeff Wilson 和 Mark Schmidt 。

CAS 在化学领域使用权威结构和标识符已有近 100 年历史,由此奠定了我们世界领先的收录和标引工作的基石。 现在,我们的生命科学团队希望为新的行业创建同等品质的索引工具。 在本文中,我们将与生命科学高级功能经理 Nicole Stobart、高级数据科学经理 Jeff Wilson 博士, 以及首席数据管理员 Mark Schmidt 讨论如何利用权威结构开辟这一全新道路。

CAS:您如何描述权威结构?

Jeff:从我们的角度来看,权威结构主要侧重于身份标识。 在任何领域,无论是蛋白质、化学物质还是核酸,大家都希望能够逐一对照地识别。 纵观 CAS 历来的化学合集,我们拥有经典权威结构 CAS REGISTRY® (CAS 登记号)。 在 CAS 登记号中,我们希望能够对不同的化学物质进行唯一描述,并确保每次在收录过程中遇到相同物质时都以同样的方式加以标识。 对乙酰氨基酚便是一则简单的例子。 无论是对乙酰氨基酚、泰诺 (Tylenol) 还是扑热息痛,它们都被标识为同一种化学物质。

CAS:为什么权威结构对生命科学家如此重要?

Nicole:我们目前的权威结构对于小分子很有效,但对于蛋白质或酶的情况如何呢? 是的,有一些序列可以与它们相关联,但倘若一个序列中的氨基酸出现变化,是否会构成一个不同的实体? 我们认识到,研究人员在这一方面遇到了困难。 有多家不同的公司或组织试图对此进行整理,但还没有任何机构对这类生物制品实施过完全权威的整理工作。 在尝试为客户提供生物信息的过程中,我们发现,如果没有首先对这类信息进行权威性的整理,那么便难以为继。 这不仅需要收集成堆的数据,还要对其进行权威性整理,并确保数据整理方式与全球其他组织预期的整理方法一致。

Mark:在生命科学领域,我们目前正致力于标识所有重要物质,并就此类物质的定义及其称呼方式达成一致,这样才能真正实现权威性。 在传统业务领域,如果遇到某种化学物质,可以查看 CAS 内容合集,然后添加有关这种物质的新信息。 我们正试图在生命科学(如蛋白质和酶等)领域实现同样的功能,为此,首先需要就这些物质的身份标识达成一致。

Jeff:这取决于研究人员及其所在地点,但我认为,如果能够明确描述事物,那么在列出数据时便可以大幅提高一致性和可靠性。 从最简单的层面来说 (这又回归到我们一直以来的做法):整理数据以供检索,这样当用户使用我们的检索工具(如 CAS SciFindern)时,无论是想称之为癌症还是肉瘤,我们都知道这些术语之间的关系。 我们不会强迫用户使用所有这类不同术语进行检索以查找数据,而是在后台处理这一情况,只需要使用其中一个术语即可找到所有内容。

除了搜索和检索之外,一旦涉足更复杂的应用领域(如知识图谱和发现重要关系等),如果实体分散在各个节点上,那么建立准确的知识图谱就会变得很困难。 如果我将某个感兴趣的蛋白质作为靶标,则需要将该蛋白质的所有数据均存储在该单个节点上,再将其他相关实体分别置于各个节点。 否则,便将得到一个非常复杂的知识图谱,其中该蛋白质有 15 个节点,该疾病有 12 个节点,同一物质有 7 个节点。 这样就形成了极其复杂的关系图,但却无法看出实际上只有 3 个实体,它们以可预测的方式相互关联,原因在于没有预先定义这类实体的身份标识。

CAS:您如何定义 CAS 的“标引”一词?

Mark:人们往往用“标引”来表示两种不同的含义。 首先是数据的摄取和聚合,在 CAS 通常不称之为标引。 还有一种则是 CAS 历史悠久的标引工作,即科学家研究原始信息来源,然后运用知识积累提取和改进信息,再通过更有条理的方式提供此类信息。

Jeff:我们的大多数科学家都在从事 Mark 所描述的标引工作,相关人员负责从原始资料中提取关键信息,然后加以改进、标准化,并将其与其他数据点连接起来。但在此之上还有另一层涵义。 我们设有专门负责收录权威合集的团队,他们会审查收录的新信息并做出决定:这是新信息吗? 还是不是? 我们该如何进行整理? 它们之间有何联系? 我们应使用什么术语? 我们没有让原始文献的信息提取人员做出这类决定,而是让权威合集的收录人员来负责决策工作。

Mark:最关键的一点是,权威内容永无止境。 我们不仅要持续添加新发现或新的有趣信息,还要不断添加新的同义词,以保持其实用性。

CAS:您认为权威结构在标引方面的优势是什么?

Jeff:在开始使用权威结构来汇总身份标识和术语之后,便可以简化新实例的识别工作。 一旦收集了实体的所有名称,即可创建相应的权威结构立即进行查看和匹配。 同义词为标引提供便利。

Mark:权威结构有助于整理并汇总所有相关信息。 例如对于蛋白质,我们对这种蛋白质的称呼可能与用户不完全一样,但如果我们知道用户如何称呼,而我们又怎么称呼,那么我们就可以将所有信息汇编在同一身份标识下,从而将所有信息汇集在一起。

CAS:能否利用人工智能来帮助创建权威结构,或借助人工智能进行标引?

Nicole:为了实现人工智能标引,我们需要确保所讨论的任何内容均经过权威整理和标识。 如果数据没有经过人工整理,或者至少没有以权威方式进行思考和标识,那么便很难依赖任何采用机器学习或机器标引的数据。

Jeff:对于人工智能及其与数据的关系,我们有一个普遍的理念,即利用最先进的技术来提高人类的能力。 我们有数百名科学家负责从事数据标引工作,如果看看他们如今所做的工作,会发现比 30 年前要复杂得多。 每当采用一项新技术时,我们都会利用这项技术来使人类能够完成更复杂的工作。 我们利用自然语言处理和机器学习技术来帮助识别文档和见解,但所有这些随后都会呈现给人类,由人类来最终决定哪些是重要的或哪些是相关的,以及如何进行整理。

创建结构化数据后,我们也会在另一端利用技术和人工智能解决方案做同样的事情。 我们竭力利用最好的技术,力求向用户展示所要求的内容以及与之相关的内容。 我们可以使用预测技术来帮助规划合成,旗下的人工智能引擎有助于预测现有技术,此外,用户还可以进行布尔类型的检索,并尝试找到相关内容。 因此,我们目前致力于让数据高度结构化,并在此基础上分层使用人工智能技术,而不是用人工智能来取代人工。

CAS:CAS 将如何定义和标识生物实体?

Mark:这正是我们开始讨论身份标识语义的出发点。 这是生命科学中一个非常困难且复杂的问题,我们充分意识到了这一点,每天都在根据具体情况努力应对。 尽管可能无法做到尽善尽美,但我们会尽力而为。 我们将做出合理的可靠选择,让这类选择对生命科学领域的业内人士切实有用。 尽管无法每次都令所有人满意,但我们将致力于保证选择的可预见性和明确性,让大家能够可靠地使用 CAS 所提供的系统。

当面临“某个核苷酸的差异是否构成了一项新的身份标识?”这样的问题时,我们可以做出选择。 然而,如果三个不同的单核苷酸多态性变为一个身份标识而不是三个,那么我们无疑需要对所有这三项差异加以描述,并将它们附加到所提出的一项标识上。 因此,即使我们决定将不同事物归于一项标识,所有信息仍然具有可发现性、可连接性和可访问性。

最初,我们会选择标识语义并对其进行定义,然后随着新信息的到来,我们将做出决定:“这是一项新的身份标识,还是对现有标识的补充?”我们希望尽可能多地利用计算能力,但在任何时候,我们做出此类决定的最终准确来源都出自最了解该主题领域的人类。 通过这种方式,我们将提供值得信赖的服务。

Jeff:需要在前期建立一套明确、一致且全面的规则。 对于未曾尝试过定义实体和汇总信息的人而言,这似乎非常武断,但我们发现,在整理信息的过程中,人们为了避免犯错需要保持明确性和一致性。 可以在特定情况下找到科学的细微差异,但为每件事都制定规则会导致事物分散,加大查找和收集工作的难度。 相反,最好是制定一项适用于 99% 情况的规则。 在化学领域,我们有时会收到科学家的来信称:“我看到某个物质在 CAS 登记号中的描述方式有误,我有数据表明用另一种方式描述会更合适。”而我们通常的回答是,所含内容均围绕可发现性进行整理。 这就是问题的关键所在,标引工作需要始终如一地引导人们找到所需数据,即使在此过程中会遗漏一些科学细微差异。

CAS:你们是利用结构还是功能来创建生命科学领域的这类身份标识?

Mark:对于许多生物实体,尤其是蛋白质来说,功能多于结构,但通常是两者的结合。 在化学领域,我们可以轻松创建完全基于结构的权威结构,但这对生命科学来说却并不相同。 我们需要解决多个不同的权威性问题:蛋白质、抗体、生物体等。其中每一项都需要采用独特的处理方式。 进入生命科学领域时,我们必须摆脱单纯基于结构的身份标识,这种情况在过去是没有必要的。

CAS:随着时间推移和新研究的开展,生物功能也会发生变化,你们打算如何解决按功能定义的持久性问题?

Jeff:我们总是尝试未雨绸缪,我们无法预测十年后生命科学的发展方向,但在创建一致结构时,我们会在其中加入一些灵活性和可扩展性。 其中的关键在于识别何时应继续使用当前结构,以及当出现新的科学分支时何时需要采用新结构。 人们不会停止描述蛋白质,但可能会出现某种子类别,需要为此创建新的权威结构。

Mark:我认为,如果早在开始阶段就稳扎稳打,做好了合理的标识语义工作,那么便已经为未来做好了准备。科学家们很可能会把一项身份标识细分为多项更具体的标识。 不妨想想生物的种属命名,这种方式在很长一段时间内都是行之有效的。 人们对亚种的需求并没有让种属模式完全失效。 我们可以建立这种结构,用于身份标识时可能会比开始阶段更为具体,但也不会完全过时。

CAS:是什么让 CAS 成为汇总这类生命科学细分权威结构的合适组织?

Jeff:成为某一领域的全球权威后,就会拥有一定的自我维持能力。 如果纵观化学物质领域,没有人会质疑 CAS 登记号。 该平台极具权威性。 虽有其他物质合集,但 CAS 的组织定位与大多数其他组织并不相同。 作为美国化学会的分支机构,我们的使命不仅仅是盈利,更是促进科学发展。 我们拥有人才、专业知识和空间来处理此类生命科学数据,能够采用与 CAS 登记号相同的方式进行整理。 如果这个项目完成后,CAS 未能成为蛋白质的权威平台,那就是我们未竟全功。 这便是我们要做的工作。

Mark:在生命科学领域,人们普遍希望就一套有意义的身份标识达成一致,我们已在小分子化学领域解决了这一问题。 目前生命科学家们正在寻找一套明确的身份标识,并定义它们之间的关系,从而围绕这一结构来整理数据。 我们正在涉足这种复杂性,为混乱带来秩序。 在这方面取得足够进展后,人们就会接受我们掌握了大多数人关心的所有蛋白质,并以大多数人能利用的方式进行讨论。 当人们在我们的合集中找不到所需蛋白质时,他们会提醒我们,让我们添加该种蛋白质,而不是自行建立完全独立的数据库。 这就是我们的目标:不仅仅是构建一个权威的数据合集,更要成为生命科学领域的权威。

CAS:你们当前开展的工作与现有的那些有何不同?

Mark:在很多科学领域,人们会采取适合自身情况的方式,在本地层面解决自己或同事面临的问题。 他们创建相应的数据库,其中包含了所关心物质的身份标识,以能够理解的方式进行描述,并带有相关信息。 与此同时,在稍有重叠的领域从事相同或不同工作的人,他们则会选择不同的方式来描述这些身份标识,并收集不同的信息。 然后,我们开始看到一些项目将这些较小的领域联合起来,使所有这类从业者都能达成共识,并促进跨越边界的发现。 因此,生命科学领域已经出现了这种情况,但还没有一种方法能将大量领域与一套统一的身份标识结合在一起。

我们的目标就是实现这样的平台:可以在此查询蛋白质靶标,尽管不知道该蛋白质属于三四种生物通路的组成部分,但当在该信息集中找到这一标识时,即可立即查看所有相关联系。 此外,还可以了解到它是否被用作某种疾病状态或治疗结果的生物标志物。 能够围绕一个身份标识汇集来自不同地方的所有信息,可以找到并加以利用,从而创造出以前无法获得的价值。

Jeff:现在有很多小规模组织都在汇总这一拼图的组成部分。 疾病本体是存在的,Uniprot 试图整理蛋白质,NCBI 设有一项生物体数据库。 尽管其中每一项本身都属于权威结构,但它们之间没有任何有效连接,必须四处找寻。 我们致力于实现一套统一的数据集,可以在此查找所有生命科学领域的数据,这些数据相互连接、相互协调。 为了做到这一点,我们必须采用 Uniprot、Ensemble 和 CAS REGISTRY 三方的蛋白质视图,并将其统一为单一视图和一套身份标识。 但在这里,用户可以访问所有这些小型合集。 一旦将其连接起来,效果能够超越各部分的总和,因为用户可以发现以前无法找到的信息。

Nicole:我们希望成为全球最全面的生命科学数据库。 我们致力于解决客户遇到的各种问题和挑战,而他们如今正面临着对生命科学权威结构的需求。

CAS:当你们涉足这一领域时,是否遇到过其他现有数据库的阻碍?

Mark:不可能得到所有人的认可。 在某些时候,必须行使一些权力,做出一些选择。 很难反对一些根深蒂固的事物,我们在执行过程中也会尽量避免这样做。 我们不会说服每个人都开始使用与习惯不同的叫法,但我们希望以此为基础。

原则很简单:我们将与现有数据库保持一致。 但在实践中,做出这些选择肯定会难上加难。 如果两个数据库对同一物质有不同的表述,我们要么选择其中一个,要么选择新的术语,并尝试在二者的基础上加以改进。 我知道这听起来非常困难,但我们觉得,实现这个难点正是我们要为这一领域增加的价值,也正是我们想要向客户所提供的内容。

Nicole:我们绝对不希望疏远那些使用现有数据库并从中发挥价值的人。 我们想做的是带来更多价值,并在现有基础上增加价值。 我们尚未讨论其他标引人员的想法,还不确定他们有何感想!

Jeff:实际上,从事标引工作的科学家只占少数,所以在某种程度上来说,他们并不是我们需要关注的对象,因为我们的目标是帮助大多数人。 我们听到很多科学家都表示,他们在获取所需数据时遇到了困难。

Nicole:正是如此! 最近,我和某位科学家聊天,他创建了一个抗体信息数据库。 他说,他这样做并不是因为想要整理抗体数据,而是因为需要抗体数据来运行预测模型。 我认为很多科学家都面临这种情况,使得研究进程遭遇阻碍,而这正是我们计划解决的问题。

CAS:如果可以挥动魔杖解决权威结构的某个难题,那会是什么,又会有何影响?

Mark:我想解决的难题是让人们使用相同的词汇来表示相同的含义。 如果能做到这一点,事情就简单多了。 这项工作的重要组成部分就是利用科学家用来描述事物的词语,找到正确的身份标识,然后将这些词语与该标识联系起来。 如果我们能缩小用词范围,让每个人都达成共识,即可跳过这个环节。

Jeff:我希望让更多人了解权威结构,拥有做出尝试的愿景和热情,以有效方式来创建这类结构。 即使在支持权威结构的组织内部,我仍然花费了很多时间向人们解释为什么需要权威结构,以及有何价值。 虽然为此进行倡导是有回报的,但这会让我有点分心,毕竟我最喜欢的工作是实际处理数据和进行构建。

Related CAS Insights

药物开发

ACE2:靶向疾病发病机制中的潜在重要受体

December 15, 2022

Read article
药物开发

ACS 分子胶和靶向蛋白降解网络研讨会

October 12, 2022

Read article
药物开发

Advancing microRNA therapeutics with new delivery methods

April 18, 2025

Read article

Gain new perspectives for faster progress directly to your inbox.