CAS Registry Services℠

预测模型如何为药物发现赋能?

CAS Adam Sanford 博士和 Orr Ravitz 博士访谈

Hexagon shaped overlay
Close-up of transparent spherical capsules illuminated in blue, each containing intricate, embedded structures resembling cells or circuits.

在当今快速发展的药物发现格局中,预测模型已成为通过模拟和预测生物活性、药物-靶标相互作用等来加速工作流程的重要工具。这些模型的实用性在很大程度上取决于建立模型所依据的数据的质量和管理。走在这场技术革命前沿的是 CAS,其 CAS BioFinder Discovery Platform™ 由先进的预测模型提供支持。为了解这些模型的准确性如何为药物发现科学家带来真正的见解,我们采访了生命科学部主任 Adam Sanford 博士和 CAS BioFinder® 高级产品经理 Orr Ravitz 博士,深入探讨了使 CAS 成为该领域领导者的严格数据管理策略。

CAS:CAS 采用何种方法进行数据整合、标准化和统一化以支持您的预测模型?

Adam Sanford
生命科学部主任

关于数据管理,我们有几个核心理念。首先是全面性。我们的目标是捕获尽可能多的相关来源,广泛收集数据以确保我们的模型建立在多样化数据的坚实基础之上。但这不仅仅关乎收集数据,还关乎确保数据可用。这正是我们的人类标引与调谐过程发挥作用之处。虽然这一过程看似平凡或繁琐,但我们相信,它对于建立模型至关重要,而模型的准确度是仅靠人工智能驱动的提取无法达到的。

当我们引入数据时,我们关注三个关键方面。首先,我们要确保它是一种特定的实体——比如小分子、蛋白质或路径——我们要将其与我们的权威构造相调谐。这包括将一个实体的多种不同表达方式解析为一个单一的标识符或组件。在已发表的文献中,我们经常可以看到某种蛋白质或化学结构有数百种不同的表示形式。如果不注意的话,你可能会得到许多看似不同的独立观察结果,但实际上它们可以合在一起,因为它们是同一个实体。而我们的流程可以将这些不同的实体整合为一个集群。

Orr Ravitz
高级 CAS BioFinder 产品经理

消除文献中实体的歧义是我们确保模型准确性的关键。例如在生物学中,一种蛋白质可以有许多种叫法,如果不考虑所有名称和形式,这些变化可能会导致研究人员遗漏大量数据。在化学领域也存在类似的挑战,而我们在这方面拥有专业的知识。我们能够利用长期处理化学数据所获得的专业知识来高精度地消除生物实体的歧义。

这不仅涉及正确识别实体,还涉及正确捕获实验背景并确保实际测量(包括所使用的单位或方法)得到有效统一。

我们花费了大量精力来创建这些基础权威。例如,当文献中引用一种蛋白质时,根据物种或修饰的不同,它可能会有不同的名称或标识符。我们的方法可以确保所有这些变化都能在我们的系统中以单一、一致的标识符进行记录。这使我们能够保持预测的高精确度,而这对药物发现至关重要。

Adam Sanford
生命科学部主任

我们流程的另一个关键方面是标准化信息。这不是一项完全自动化的任务——这个过程需要人工深度参与。例如,当我们对数据进行索引时,真正的科学家会查看文献中的观察结果,并确定这是数值观测、活动还是其他东西。然后,他们会将这些数据与一组标准单位进行调谐。这是一个细致的过程,涉及大量细节,可确保每条数据都是准确的,并且与我们的其他内容一致。

这种严格的数据管理方法使 CAS 在该领域中脱颖而出。我们已经构建了一个完整的基础设施来处理这种复杂性,正是这个基础设施使我们的预测模型如此有效。

CAS:这种方法如何帮助您的模型使药物发现研究人员受益?

Orr Ravitz
高级 CAS BioFinder 产品经理

我们的模型建立在我们深信的数据基础上,这种信心可以直接转化为更准确的预测。我们一开始使用的是公开的数据来测试我们的模型。当我们过渡到 CAS 收录的内容时,我们发现预测的准确性有了显著的提高。我们还发现,我们可以创建更精细的模型,这些模型可以是针对特定生物体并专注于特定的作用模式。这是因为我们不仅确保数据的准确性,还掌握获取数据的背景。

我们在 CAS BioFinder 中采用信息学驱动的模型。我们研究的是整个数据的模式,因此规模至关重要。我们拥有的数据越多,模型的表现就越好。我们从“三元组”开始——即正确的分子、正确的靶标和正确的测量——然后在此基础之上构建模型。由于我们对这些三元组的质量严格把关,因此我们的模型本质上更加可靠。

Adam Sanford
生命科学部主任

CAS BioFinder 使用五种不同的预测模型集群,每种模型都有自己的方法。有些模型侧重于结构基础,它们可以很好地利用我们的化学数据,而其他模型可能侧重于不同的数据特征。每个模型从其独特的角度进行预测,再通过集成方法进行整合,让我们可以将这些预测结合起来形成一个共识。这种共识通常能够提供比任何单一模型都更高的预测置信度。

例如,配体到靶标活性预测是 CAS BioFinder 的核心。无论是新化合物还是现有数据库中的化合物,即使没有明确的实验数据,我们的模型也能预测配体与靶标相互作用的可能性。这种能力对于试图了解新化合物潜在活性的药物化学家来说非常宝贵。

此外,我们还拥有预测代谢物谱的模型——即人体可能如何处理化合物。了解候选药物的代谢途径对于评估其安全性和有效性至关重要。这些预测以实验确定的代谢物为基础,因此特别可靠。

Orr Ravitz
高级 CAS BioFinder 产品经理

我们还致力于让我们的客户利用我们的数据收集来扩充他们自己的专有数据。许多制药公司都拥有丰富的内部化学数据开发历史。通过添加我们的数据,他们可以创建高度符合需求的预测模型。这是一项强大的能力,让他们能够利用自身的专业知识,同时受益于 CAS 数据的广度和深度。

CAS:您在开发这些模型时遇到的最大挑战是什么?

Adam Sanford
生命科学部主任

创建我前面提到的权威结构是一个艰苦的过程,需要大量的人工干预。这不是一件可以完全自动化的事情,尤其是在处理复杂的化学和生物信息时。这个过程可能极具挑战性,特别是考虑到确保一切正确无误所需的人力投入时。

另一个重大挑战是文献中的数据表述方式各不相同。例如在专利中,数据可能隐藏在表格和补充信息中,或分散在整个文件中。仅靠一台机器很难正确整合所有这些数据。标引工作人员必须进行干预,以确保数据被准确提取和标准化。这不是一项一次性的任务,而是一个持续的努力,需要不断关注细节。

Orr Ravitz
高级 CAS BioFinder 产品经理

我可以从最近的经历中提供一个轶事来说明这种复杂性。我遇到过一种已知药物的测量,该药物于 20 世纪 80 年代末获得批准。这些数据参考了多年前的一篇论文,我很惊讶地发现,这种结构在该药物获得批准之前就已被提及。当我仔细观察时,我发现该出版物包含几种结构,但没有一种看起来与所讨论的药物完全相同。直到我研究了文中提到的各种替换,我才找到了正确的结构。这种复杂程度已经超出了目前机器所能处理的范围,这也凸显了人类专业知识在数据管理过程中的重要性。

我们开玩笑说,我们已经建立了一个“边缘案例机器”,因为我们经常处理这类复杂问题。尽管这些边缘案例可能只占数据的较小比例,但它们可能会对我们模型的准确性产生巨大影响。确保这些案例得到正确处理对于我们的预测模型的整体成功至关重要。

CAS:随着出版物和数据不断涌现,CAS 如何确保这些模型保持最新?

Adam Sanford
生命科学部主任

最初在构建模型时,我们在整合新数据时对模型进行了大批量更新。我们现在更频繁地重新训练我们的模型,在某些情况下每两周一次。这确保了我们的用户始终使用最新的预测。我们已经建立了用于集成新数据的管线,这些管线将继续变得更加高效。

Orr Ravitz
高级 CAS BioFinder 产品经理

我们预计会在数据发布后的几周内将新数据整合到我们的模型中。而以前,我们会在数据环境发生重大变化时训练模型,例如,当一个新目标终于有足够的数据来建立一个可靠的预测模型时。对数据建模和准确性的期望一直在快速变化,我们将继续频繁监控和重新训练我们的模型,以满足药物发现科学家的需求。

CAS:CAS BioFinder 和您的预测模型在未来有什么让您特别兴奋的事情吗?

Adam Sanford
生命科学部主任

我们的数据和解决方案每天都在不断演变。但截至 2024 年 10 月,我们正在积极探索多个领域,例如将更先进的治疗方式(如基于蛋白质的疗法和 PROTAC)纳入我们的预测框架的方法。这些领域仍在发展中,我们对突破模型极限的潜力感到非常振奋。这包括抗体-药物偶联物等领域,这些领域需要与小分子不同的建模方法。我们还研究毒性预测,随着这个领域转向更复杂的治疗方式,毒性预测正在变得越来越重要。

Orr Ravitz
高级 CAS BioFinder 产品经理

另一个令人振奋的领域是使用知识图谱进行预测建模。通过扩展我们提供的生物学背景——例如通路信息或生物标志物——我们可以利用这些关系来创建更复杂的模型。这可以让我们预测新的药物-靶标相互作用或识别疾病的新生物标志物。我们还尝试使用不同的方法来构建这些知识图谱,这将使我们能够提供更强大的预测功能。

CAS:这种药物发现中的预测模型方法有何独特之处?

Orr Ravitz
高级 CAS BioFinder 产品经理

真正让 CAS 与众不同的一点是我们对透明度和灵活性的承诺。我们了解我们的用户可能对计算方法有不同的偏好,因此我们将 CAS BioFinder Discovery Platform 设计为不仅仅是一个单一的应用程序。用户可以从我们的语料库中下载数据,将其与自己的数据相结合,并使用自己喜欢的方法。这种灵活性对于客户充分利用我们的内容和功能至关重要。

Adam Sanford
生命科学部主任

CAS BioFinder 中的每一项观察结果都与文献中的来源相关,这意味着用户可以将数据追溯到其原始来源。这种透明度对于与我们的用户建立信任至关重要。我们不只是要求他们盲目地信任我们的模型——我们还为他们提供工具来亲自验证数据。这种透明度和严谨性使 CAS 成为应对药物发现预测建模挑战的最佳组织。

CAS:如果您有一根魔杖可以改变药物发现过程中的任何事情,您会改变什么?

Orr Ravitz
高级 CAS BioFinder 产品经理

我们知道已发表的文献中存在对阳性结果的偏见。但阴性数据(例如针对靶标的非活性分子)对于构建准确的模型同样有价值。 如果我们能够访问更多阴性数据,我们的机器学习方法将受益匪浅。然而,这仍然是该行业的重大挑战。如果学术界和业界有更多激励措施来发布这些数据,那就太好了。

Adam Sanford
生命科学部主任

许多人似乎将人工智能和机器学习视为解决最具挑战性的药物发现问题的灵丹妙药,但如果没有实质性的改变,这是不太可能的。当这些技术不是建立在坚实的数据基础上时,它们会一次又一次地会失败。我们一直在重复这一点,因为它非常关键:把精力放在最重要的地方,即数据本身。

回顾我过去在行业中的经历,我希望更加强调底层数据结构和知识管理的重要性。如今,人们普遍认识到数据是成功实验和预测的基础,但许多组织仍未对这一领域进行充分投资。他们认识到这是一个问题,但并不总是清楚要花费多少精力和资源才能把问题解决好。在 CAS,我们旨在处理这种复杂性,并且我们已经看到了这种投资带来的好处。