了解机器学习程序和 CAS 新冠肺炎 (COVID-19) 资源(包括科学见解、公开的数据集和特殊报告)如何为抗击 COVID-19 的相关研究提供支持。

使用计算方法寻找 COVID-19 候选药物
自世界卫生组织宣布 COVID-19 成为全球疫情以来,研究人员研究了大量有关 SARS-CoV-2(一种导致 COVID-19 的新型冠状病毒)的知识。 然而,尽管付出了巨大努力,投入了巨额资金,仍然很难找到有效治疗 COVID-19 患者的方法。 虽然全球已经有多种候选疫苗进入临床试验阶段,但即便事实证明它们是安全有效的疫苗,也需要数月甚至数年时间才能生产和分发足够的疫苗供全球所有人接种。 因此,目前迫切需要找到有效的抗病毒治疗方法,在疫情受控之前减轻病毒的影响,以免更多人被感染。
为满足这一迫切需求,科学家们一直在探索各种方法来加快药物开发过程,包括使用计算方法来识别已经批准用于其他适应症且可能有效治疗 COVID-19 的药物。 为协助这项工作,CAS 的科学家和技术人员团队试图借助运用了定量构效关系 (QSAR) 方法、针对 SARS-CoV-2 优先靶蛋白的机器学习模型,识别可能用于治疗 COVID-19 的候选药物。 这项工作识别的许多药物现已开始显现临床功效,包括洛平那韦和替米沙坦,该成果最近发表在《ACS Omega》上。
旧药新用
由于新药上市需要大量时间和巨大的成本,小分子药物重定位是一种值得考虑的选择,尤其是在需求迫切之时。 与传统药物开发过程相比,除上市速度更快之外,这种策略还具有诸多优势,例如降低因不良副作用而导致后期失败的风险。
药物重定位并非什么新概念。 但迄今为止,其应用主要还是投机性的,而非系统应用。 目前药物重定位最成功的一些实例中,例如万艾可和米诺地尔,患者报告了始料未及的副作用,出现了新的适应症。 最近引入了更系统的药物重定位方法,包括特征匹配、分子对接、基因关联、路径图和临床回顾性分析等计算方法。 希望有一种计算方法能让研究人员将现有小分子疗法与新识别的药物靶标可靠联系起来,将现有疗法组合的治疗价值最大化。
不断接近靶标
冠状病毒是一个大型病毒家族,可在人类和许多动物物种当中诱发轻微至中度上呼吸道疾病,这早已众所周知。 尽管很少有动物特异性冠状病毒感染人类并在人类中传播,但迄今已证明三种冠状病毒能够实现这种跨越:SARS-CoV-1、MERS-CoV 和最近的 SARS-CoV-2。 这三种都是 β 属冠状病毒,据说均源自蝙蝠。 考虑到这些病毒的相似性以及它们在人类中传染的进展情况,之前的 SARS 和 MERS 研究是寻找 SARS-CoV-2 药物靶标的一个绝佳入手点。 SARS-CoV-2 的所有蛋白质中,3-胰凝乳蛋白酶样蛋白酶 (3CLpro) 和 RNA 依赖性 RNA 聚合酶 (RdRp) 是 QSAR 建模的两种理想靶蛋白,部分原因是它们与 SARS-CoV 和 MERS-CoV 以及其他已知的冠状病毒中鉴定的蛋白质非常相似。
3CLpro 是冠状病毒将多聚蛋白肽裂解成单个功能性非结构蛋白 (NSP) 必不可少的蛋白酶。 比较氨基酸序列和蛋白质结构时发现,3CLpro 在 SARS-CoV-2 与其他人类冠状病毒之间高度保守。 结果表明,它有 96% 的序列一致性与 SARS-CoV-1 相同,87% 与 MERS-CoV 相同,90% 与 Human-CoV 相同。 因此,之前在冠状病毒相关研究中发现的 3CLpro 抑制剂有望作为 SARS-CoV-2 3CLpro 的抑制剂,相关的构效关系 (SAR) 数据对训练机器学习模型寻找 SARS-CoV-2 3CLpro 的新抑制剂极具价值。
RdRp 是 RNA 病毒在宿主细胞中复制病毒基因组时主要使用的酶。 对 SARS-CoV-2 RdRp 的结构研究和序列分析表明,这种酶与 SARS-CoV-1 RdRp 的结构非常相似,且包含大多数病毒 RdRp(包括 HCV)中存在的几个重要氨基酸残基。 好在目前已经将各种病毒 RdRp 作为 RNA 病毒的抑制剂进行了广泛研究,特别是在 HCV 相关研究中。 因此,现有的 RNA 病毒 RdRp 抑制剂(例如 HCV)或许可以为 SARS-CoV-2 RdRp 抑制的药物开发提供有价值的见解。
利用机器学习对现有疗法进行优先排序
近年来,机器学习模型越来越多地用于促进药物发现。 具体而言,QSAR 通常是现代药物发现过程中的第一步。 简而言之,QSAR 是一些数学模型,以对分子结构的定量测量为基础,近似表示相当复杂的化学或生物化学性质。 这些预测性数学模型被用于筛选大型化学结构数据库,对最有可能有效抗击既定靶标的潜在候选药物进行优先排序。 该方法假设化学物质的活性与自身化学结构直接相关,因此,具有相似结构特征的分子将表现出相似的物理性质和/或生物效应。
在这项研究中,我和同事密切合作,为 3CLpro 和 RdRp 蛋白靶标构建了多个具有高度预测性的 QSAR 模型。 我们的团队(包括计算科学家和化学家)选择了 1000 多种已经具有结构生物活性数据的抑制剂作为这些模型的训练分子。 我们从最新的 SARS-CoV-2 生物测定研究以及 CAS 内容合集中有关 SARS-CoV-1、MERS-CoV 和其他相关病毒的现有研究中收集了数据。 利用这些数据,我们运用多种机器学习算法构建了数十个 QSAR 模型,从中选择性能最强的模型——一个以 3CLpro 为靶标,一个以 RdRp 为靶标。
阅读期刊文章 QSAR machine learning models and their applications for identifying viral 3CLpro- and RdRp-targeting compounds as potential therapeutics for COVID-19 and related viral infections(《QSAR 机器学习模型及其在识别 3CLpro 和 RdRp 靶标化合物作为治疗 COVID-19 和相关病毒感染的潜在候选药物的应用》)全文,了解检测的所有模型,看看哪些潜在候选药物排名靠前。
我们使用了由此得出的两个 QSAR 模型来筛选大量潜在候选药物,包括 1087 种 FDA 批准的药物、CAS COVID-19 抗病毒候选化合物数据集中的近 50,000 种物质,以及 CAS 编入索引的、自 2003 年以来发表的有关 SARS、MERS 和 COVID-19 的文件中已经鉴定药理活性或治疗作用的约 113,000 种物质。 通过在建模时将蛋白酶抑制剂活性作为物质结构的函数,我们从预计可作为冠状病毒 3CLpro 和 RdRp 的有效抑制剂的物质中确定了一些最有希望的候选药物。 此外,在我们的模型预测的许多可以抑制 SARS-CoV-2 中的 3CLpro 或 RdRp 的物质中,之前也已经发现了治疗活性,可以治疗其他可能引发 COVID-19 严重感染的疾病。 例如,在某些情况下,一种已知对治疗心脏病也具有活性的 COVID-19 抗病毒候选药物(例如盐酸地尔硫卓(恬尔心))可能具有双重治疗活性。
经验证,这些模型的接收者操作特征曲线下方面积 (ROC-AUC) 大,灵敏度高,特异性强,准确性高(图 1)。 这项研究完成之后,这些模型预测具有高活性的某些分子现已通过已发表的实验生物测定研究和临床试验获得验证,进一步证明了模型具有预测能力。

防范未来疫情
尽管这项研究的重点是识别用于应对当前 COVID-19 疫情危机的潜在治疗化合物,但未来可能还会出现其他病毒引发的疫情。 因此,我们现在必须持续投资,专注于抗病毒药物研究,为未来疫情做好准备。 由于各类不同的病毒均可能引发流行病(例如冠状病毒、流感病毒、埃博拉病毒、逆转录病毒),而且每种新药或适应症的人体安全性和功效测试仍需花费大量时间,因此,研究用途广泛的抗病毒药物和疫苗将最具价值。
持续开发基于计算机的药物发现方法(例如本文所述的机器学习程序、分子对接和虚拟筛选)将至关重要。 计算机处理能力的不断提高,对接和结构预测算法的持续开发以及蛋白质晶体结构确定技术将推动这项事业的进程。 此外,高通量筛选、组学技术和已开发药物重定位将继续发挥更加重要的作用。 但是,这些新技术驱动的方法并不会取代人类的实验室研究,而是作为后者的补充,提高研究效率。 这项工作将人类数据收录和机器学习模型结合在一起,我们希望能够借此成功识别治疗 COVID-19 的潜在小分子候选药物,凸显人与机器协同合作在药物发现中的价值,同时为正在开展的 COVID-19 抗病毒研究及未来研究做出贡献。
作为全球科学界的一员,CAS 致力于充分利用我们的所有资源和能力来帮助抗击 COVID-19。 探索其他公开的 CAS COVID-19 资源,包括科学见解、公开的数据集和特别报告。
精选内容
About CAS
CAS, a division of the American Chemical Society, partners with R&D organizations globally to provide actionable scientific insights that help them plan, innovate, protect their innovations, and predict how new markets and opportunities will evolve. Leverage our unparalleled content, specialized technology, and unmatched human expertise to customize solutions that will give your organization an information advantage.