Hexagon shaped overlay
CAS Registry Services℠

为什么生命科学数据需要新的权威结构?

与 CAS 的 Nicole Stobart、Jeff Wilson 博士和 Mark Schmidt 的对话

Close-up of transparent spherical capsules illuminated in blue, each containing intricate, embedded structures resembling cells or circuits.

CAS 在化学领域使用权威结构和标识符已有近 100 年历史,由此奠定了我们世界领先的收录和标引工作的基石。现在,我们的生命科学团队正在为新的行业创建同等品质的索引工具。在本文中,我们与生命科学高级能力经理 Nicole Stobart、内容策略和权威助理总监 Jeff Wilson 博士以及首席数据管理员 Mark Schmidt 进行了访谈,讨论他们如何使用权威结构开辟这条新道路。

CAS:什么是权威结构,为什么它们对生命科学研究如此重要?

Jeff Wilson
内容策略和权威助理总监

从我们的角度来看,权威结构主要侧重于身份标识。在任何领域,无论是蛋白质、化学物质还是核酸,大家都希望能够唯一地识别实体。纵观 CAS 历来的化学合集,我们拥有经典权威的 CAS REGISTRY®(CAS 登记号)。在 CAS REGISTRY (物质数据库)中,我们希望能够对不同的化学物质进行唯一描述,并确保每次在收录过程中遇到相同物质时都以同样的方式加以标识。对乙酰氨基酚便是一则简单的例子。无论是对乙酰氨基酚、泰诺 (Tylenol) 还是扑热息痛,它们都被标识为同一种化学物质。

CAS:您如何定义 CAS 的“标引”一词?

Mark Schmidt
首席数据管理员

人们往往用“标引”来表示两种不同的含义。首先是数据的摄取和聚合,在 CAS 我们通常不称之为标引。还有一种则是 CAS 历史悠久的标引工作,即科学家研究原始信息来源,然后运用知识积累提取和改进信息,再通过更有条理的方式提供此类信息。

Jeff Wilson
内容策略和权威助理总监

我们的大多数科学家都在从事 Mark 所描述的标引工作,相关人员负责从原始资料中提取关键信息,然后加以改进、标准化,并将其与其他数据点连接起来。但在此之上还有另一层涵义。我们设有专门负责收录权威合集的团队,他们会审查收录的新信息并做出决定:这是新信息吗?不是吗?我们该如何进行整理?它们之间有何联系?我们应使用什么术语?我们没有让原始文献的信息提取人员做出这类决定,而是让权威合集的收录人员来负责决策工作。

Mark Schmidt
首席数据管理员

最关键的一点是,权威内容永无止境。我们不仅要持续添加新发现或新的有趣信息,还要不断添加新的同义词,以保持其实用性。

CAS:您认为权威结构在标引方面的优势是什么?

Jeff Wilson
内容策略和权威助理总监

在开始使用权威结构来汇总身份标识和术语之后,我们便可以简化新实例的识别工作。一旦收集了实体的所有名称,即可创建相应的权威结构,以便即时查看和匹配。同义词可为标引提供便利。

Mark Schmidt
首席数据管理员

权威结构有助于整理并汇总所有相关信息。例如对于蛋白质,我们对这种蛋白质的称呼可能与用户不完全一样,但如果我们知道用户如何称呼,以及我们如何称呼,那么我们就可以将所有信息汇编在同一身份标识下,从而将所有信息汇集在一起。

CAS:能否利用人工智能来帮助创建权威结构,或借助人工智能进行标引?

Nicole Stobart
生命科学高级能力经理

我们需要确保所讨论的任何内容均经过权威整理和标识,以实现人工智能标引。如果数据没有经过人工整理,或者至少没有以权威方式进行思考和标识,那么我们便很难依赖任何采用机器学习或机器标引的数据。

Jeff Wilson
内容策略和权威助理总监

对于人工智能及其与数据的关系,我们有一个普遍的理念,即利用我们所能获得的最先进技术来提高人类的能力。我们有数百名科学家负责从事数据标引工作,如果你看看他们如今所做的工作,会发现这比 30 年前要复杂得多。每当采用一项新技术时,我们都会利用这项技术来让人类能够完成更复杂的工作。我们利用自然语言处理和机器学习技术来帮助识别文档和见解,但所有这些随后都会呈现给人类,由人类来最终决定哪些是重要的或哪些是相关的,以及如何进行整理。

创建结构化数据后,我们也会在另一端利用技术和人工智能解决方案做同样的事情。我们竭力利用最好的技术,力求向用户展示所要求的内容以及与之相关的内容。我们可以使用预测技术来帮助规划合成,旗下的人工智能引擎有助于预测现有技术,此外,用户还可以进行布尔类型的检索,并尝试找到相关内容。因此,我们目前致力于让数据高度结构化,并在此基础上分层使用人工智能技术,而不是用人工智能来取代人工。

CAS:CAS 将如何定义和标识生物实体?

Mark Schmidt
首席数据管理员

这正是我们开始讨论身份标识语义的出发点。这是生命科学中一个非常困难且复杂的问题,我们充分意识到了这一点,每天都在根据具体情况努力应对。尽管可能无法做到尽善尽美,但我们会尽力而为。我们将做出合理的可靠选择,让这类选择对生命科学领域的业内人士切实有用。尽管无法每次都令所有人满意,但我们将致力于保证选择的可预见性和明确性,让大家能够可靠地使用我们提供的系统。

当我们遇到诸如“一个核苷酸的差异是否构成新的身份?”这样的问题时,我们需要做出选择。但是,如果三种不同的单核苷酸多态性成为一个身份而不是三个,我们绝对需要描述所有这三种差异并将它们附加到我们所呈现的一个身份上。因此,即使我们决定将不同事物归于一项标识,所有信息仍然具有可发现性、可连接性和可访问性。

最初,我们会选择标识语义并对其进行定义,然后随着新信息的到来,我们将做出决定:“这是一项新的身份标识,还是对现有标识的补充?”我们希望尽可能多地利用计算能力,但在任何时候,我们最终的决策依据还是最了解相关领域的人类。通过这种方式,我们能够提供值得信赖的服务。

Jeff Wilson
内容策略和权威助理总监

我们需要在前期建立一套明确、一致且全面的规则。对于未曾尝试过定义实体和汇总信息的人而言,这似乎非常武断,但我们发现,在整理信息的过程中,我们为了避免犯错需要保持明确性和一致性。我们可以在特定情况下找到科学的细微差异,但为每件事都制定规则会导致事物分散,加大查找和收集工作的难度。相反,最好是制定一项适用于 99% 情况的规则。在化学领域,我们有时会收到科学家的来信称:“我看到某个物质在 CAS 登记号中的描述方式有误,我有数据表明用另一种方式描述会更合适。”而我们通常的回答是,所含内容均围绕可发现性进行整理。这就是问题的关键所在,标引工作需要始终如一地引导人们找到所需数据,即使在此过程中会遗漏一些科学细微差异。

CAS:你们是利用结构还是功能来创建生命科学领域的这类身份标识?

Mark Schmidt
首席数据管理员

对于许多生物实体,尤其是蛋白质,功能多于结构,但通常是两者的结合。在化学领域,我们可以轻松创建完全基于结构的权威结构,但这对生命科学来说却并不相同。我们需要解决多个不同的权威性问题:蛋白质、抗体、生物体等。其中每一项都需要采用独特的处理方式。进入生命科学领域时,我们必须摆脱单纯基于结构的身份标识,这种情况在过去是没有必要的。

CAS:随着时间推移和新研究的开展,生物功能也会发生变化,你们打算如何解决按功能定义的持久性问题?

Jeff Wilson
内容策略和权威助理总监

我们总是尝试未雨绸缪,我们无法预测十年后生命科学的发展方向,但在创建一致结构时,我们会在其中加入一些灵活性和可扩展性。其中的关键在于识别何时应继续使用当前结构,以及当出现新的科学分支时何时需要采用新结构。人们不会停止描述蛋白质,但可能会出现某种子类别,需要为此创建新的权威结构。

Mark Schmidt
首席数据管理员

我认为,如果早在开始阶段就稳扎稳打,做好了合理的标识语义工作,那么我们已经为未来做好了准备。科学家们很可能会把一项身份标识细分为多项更具体的标识。不妨想想生物的种属命名,这种方式在很长一段时间内都是行之有效的。人们对亚种的需求并没有让种属模式完全失效。我认为我们可以建立这种结构,用于身份标识时可能会比开始阶段更为具体,但也不会完全过时。

CAS:是什么使 CAS 成为整理这些零散数据的合适机构?

Jeff Wilson
内容策略和权威助理总监

当一个机构成为某一领域的全球权威后,就会拥有一定的自我维持能力。纵观化学物质领域,没有人会质疑 CAS REGISTRY 物质数据库。它极具权威性。虽有其他物质合集,但我们的组织定位与大多数其他组织并不相同。作为美国化学会的分支机构,我们的使命不仅仅是盈利,更是促进科学发展。我们拥有人才、专业知识和空间来处理此类生命科学数据,能够采用与 CAS REGISTRY 物质数据库相同的方式进行整理。如果这个项目完成后,CAS 未能成为蛋白质的权威平台,那就是我们未竟全功。这便是我们要做的工作。

Mark Schmidt
首席数据管理员

在生命科学领域,人们普遍希望就一套有意义的身份标识达成一致,我们已在小分子化学领域解决了这一问题。目前生命科学家们正在寻找一套明确的身份标识,并定义它们之间的关系,从而围绕这一结构来整理数据。我们正在涉足这种复杂性,为混乱带来秩序。在这方面取得足够进展后,人们就会接受我们掌握了大多数人关心的所有蛋白质,并以大多数人能利用的方式进行讨论。当人们在我们的合集中找不到所需蛋白质时,他们会提醒我们,以便我们添加该种蛋白质,而不是自行建立完全独立的数据库。这就是我们的目标:不仅仅是构建一个权威的数据合集,更要成为生命科学领域的权威。

CAS:你们当前开展的工作与现有的那些有何不同?

Mark Schmidt
首席数据管理员

在很多科学领域,人们会采取适合自身情况的方式,在本地层面解决自己或同事面临的问题。他们创建相应的数据库,其中包含所关心物质的身份标识,以能够理解的方式进行描述,并带有相关信息。与此同时,在稍有重叠的领域从事相同或不同工作的人,他们则会选择不同的方式来描述这些身份标识,并收集不同的信息。然后,我们开始看到一些项目将这些较小的领域联合起来,使所有这类从业者都能达成共识,并促进跨越边界的发现。因此,生命科学领域已经出现了这种情况,但还没有一种方法能将大量领域与一套统一的身份标识结合在一起。

我们的目标就是实现这样的平台:可以在此查询蛋白质靶标,尽管不知道该蛋白质属于三四种生物通路的组成部分,但当在该信息集中找到这一标识时,即可立即查看所有相关联系。此外,我们还可以了解到它是否被用作某种疾病状态或治疗结果的生物标志物。能够围绕一个身份标识汇集来自不同地方的所有信息,可以找到并加以利用,从而创造出以前无法获得的价值。

Jeff Wilson
内容策略和权威助理总监

现在有很多小规模组织都在汇总这一拼图的组成部分。疾病本体是存在的,Uniprot 试图整理蛋白质,NCBI 设有一项生物体数据库。尽管其中每一项本身都属于权威结构,但它们之间没有任何有效连接,必须四处找寻。我们致力于实现一套统一的数据集,让大家可以在这里查找所有生命科学领域的数据,这些数据相互连接、相互协调。为了做到这一点,我们必须采用 Uniprot、Ensemble 和 CAS REGISTRY 三方的蛋白质视图,并将其统一为单一视图和一套身份标识。但在这里,用户可以访问所有这些小型合集。一旦将其连接起来,效果能够超越各部分的总和,因为用户可以发现以前无法找到的信息。

Nicole Stobart
生命科学高级能力经理

我们希望成为全球最全面的生命科学数据库。我们致力于解决客户遇到的各种问题和挑战,而他们如今正面临着对生命科学权威结构的需求。

CAS:当你们进入这一领域时,是否遇到过其他现有数据库的阻碍?

Mark Schmidt
首席数据管理员

我们不可能得到所有人的认可。在某些时候,我们必须行使一些权力,做出一些选择。我们很难反对一些根深蒂固的事物,在执行过程中我们也会尽量避免这样做。我们不会说服每个人都开始使用与习惯不同的叫法,但我们希望以此为基础。

原则很简单:我们将与现有数据库保持一致。但在实践中,做出这些选择肯定会难上加难。如果两个数据库对同一物质有不同的表述,我们要么选择其中一个,要么选择新的术语,并尝试在二者的基础上加以改进。我知道这听起来非常困难,但我们觉得,实现这个难点正是我们要为这一领域增加的价值,也正是我们想要向客户所提供的内容。

Nicole Stobart
生命科学高级能力经理

我们绝对不想疏远那些使用现有数据库并在其中找到价值的人。我们想做的是带来更多价值,并在现有基础上增加价值。我们尚未讨论其他标引人员的想法,还不确定他们有何感想!

Jeff Wilson
内容策略和权威助理总监

实际上,从事标引工作的科学家只占少数,所以在某种程度上来说,他们并不是我们需要关注的对象,因为我们的目标是帮助大多数人。我们听到很多科学家都表示,他们在获取所需数据时遇到了困难。

Nicole Stobart
生命科学高级能力经理

当然!最近,我和某位科学家聊天,他创建了一个抗体信息数据库。他说,他这样做并不是因为想要整理抗体数据,而是因为需要抗体数据来运行预测模型。我认为很多科学家都面临这种情况,使得研究进程遭遇阻碍,而这正是我们计划解决的问题。

CAS:如果有一根魔杖可以改变药物发现过程中的任何事情,您会改变什么?

Mark Schmidt
首席数据管理员

我想解决的难题是让人们使用相同的词汇来表示相同的含义。如果能做到这一点,事情就简单多了。这项工作的重要组成部分就是利用科学家用来描述事物的词语,找到正确的身份标识,然后将这些词语与该标识联系起来。如果我们能缩小用词范围,让每个人都达成共识,即可跳过这个环节。

Jeff Wilson
内容策略和权威助理总监

我希望让更多人了解权威结构,拥有做出尝试的愿景和热情,以有效方式来创建这类结构。即使在支持权威结构的组织内部,我仍然花费了很多时间向人们解释为什么需要权威结构,以及有何价值。虽然为此进行倡导是有回报的,但这会让我有点分心,毕竟我最喜欢的工作是实际处理数据和进行构建。