过去十年,随着新机器学习和人工智能计算方法的兴起,蛋白质功能预测取得了重大进展。在本文中,我们采访了蛋白质功能预测专家、功能注释关键评估 (CAFA) 实验的共同组织者 Iddo Friedberg 博士,讨论了模型预测蛋白质功能的准确性,以及他对该领域未来发展的看法。
CAS:您最初是如何对蛋白质功能预测产生兴趣的?
当时我正在以博士后的身份进行结构生物信息学研究。我试图找到一种使用片段或片段库来表示蛋白质结构的新方法。那时我开始将结构与功能进行关联。我开始问,“序列和结构与功能有何关系?如何更好地根据序列和结构预测蛋白质功能?”
当时大家正在尝试开发各种预测蛋白质功能的方法。我认为与更多人讨论这个问题可能会很有帮助,但我找不到专门讨论这一主题的会议。于是,我本人组织了这样一场会议。当时是 2005 年,分子生物学智能系统年会 (ISMB) 在底特律举行了远程议。我们于次年在加州大学圣迭戈分校 (UCSD) 组织了独立会议。自那时起,我们就一直在举办这一会议,即自动计算蛋白质功能预测会议,将它作为 ISMB 的一部分。
CAS:自从您投身该领域以来,自动化蛋白质功能预测取得了哪些进展?
这些年取得了一定的进展。2010 年,我和美国东北大学的 Predrag Radivojac 以及华盛顿大学的 Sean D. Mooney 发起了 CAFA 竞赛,旨在根据蛋白质序列或结构来预测其功能。总体思路是将蛋白质序列与一组描述其功能的本体论术语相关联,并寻找改进蛋白质功能计算注释的方法。通过 CAFA 提交材料中提交的各种不同的途径和预测方法,该竞赛也可作为对蛋白质功能预测方法进行大规模评估的实验。
在建模过程中,我们使用 Fmax 分数(精确召回曲线上的最大调和平均数)作为指标,以 0 到 1 的分值来描述模型预测的准确度,其中 1 分为最佳。CAFA 1 获得的 Fmax 分数约为 0.5,可能稍高一点,现在 CAFA 4 获得的分数约为 0.7。这取决于本体论的各方面,其中一方面得分约为 0.7,另一方面得分约为 0.4/0.5,但情况正在变好。
最近在 Kaggle 的支持下,有 1675 个团队竞相通过 CAFA 5 预测一组蛋白质的功能。最终评估要到 2024 年 1 月左右才能完成,但我可以告诉大家,三个本体论的平均 Fmax 全部接近 0.65,这意味着在基因本体论的分子功能方面,我认为有人已经达到 0.8 左右。
我们还发现,想要使这些预测变得可靠,还需要纳入更多的专业知识类型-即算法背后的研究人员。目前,我们的 CAFA 社群纳入了生物信息学、实验生物学、生物信息收录管理和生物本体论方面的专家。我们将通过合作来改进现有可访问海量数据的管理方法。
CAS:与其他方法相比,是否有一些蛋白质功能预测方法更有效?
我能够根据文献预感哪些方法更有效。现在情况发生了一些变化。过去预测分子功能方面有效的方法是同源转移。检测远程同源物的方法越灵敏,其效果就越好。如果能添加结构信息,效果会更好,因为在进化过程中,结构的影响远比序列更深远。这些模型在应用中相对简单,即便如此,学术界已经开始更广泛地使用机器学习。
到了 CAFA 3 和 CAFA 4,我们已经有人将蛋白质和蛋白质序列表示为嵌入来预测功能。嵌入是多维的数据表示形式,这种技术已经改变了现有的状况。在经典预测中,蛋白质表示为字符串,通过模型寻找字符串(蛋白质序列)之间的相似性。通过嵌入,预测会考虑到蛋白质每个部分的周围上下文,并使用 Word2Vec 样式的模型 ProtVec。此类表示非常敏感,并具有极高的预测能力。我们未来可能还会有更优的解决方案。但到目前为止,我认为嵌入效果就很棒。
CAS:随着分子功能预测的不断改进,我们是否能更好地进行生物过程和细胞组分预测?
在 CAFA 的最初阶段,生物过程的预测获得了较低的分数——低于所有 CAFA 的分子功能预测分数。比如,已知某蛋白质是一种激酶,且它在小鼠体内参与细胞凋亡。你可能会问:“它在人类中也有同样的作用吗?”小鼠和人类可能很接近,因此可以说“是的,它们在发挥相同的作用。”但人类和果蝇呢?或者人类和酵母呢?这就是同源转移可能失败的地方,因为进化差距越远,我们看到的差异就越多。
但我们也确实取得了进展。我们尝试让预测人员从一组关键词中选择一个来描述他们的预测方法。我们发现,像隐马尔可夫模型 (hidden Markov models) 和远程同源搜等是预测分子功能的最佳方法。但预测生物过程的最佳方法是从论文和基因组背景中进行文本挖掘。所以,分子功能和生物过程的预测是迥然不同的。
细胞组分预测的进展并不顺利,我们必须思考是哪里出了问题。一方面在于本体结构本身,即细胞组分本体是个棘手的问题。如果我们把分子功能本体图想象成一棵树,把生物过程本体图想象成一个整齐的分层有向无环图,那么细胞组分就像灌木丛。其结构略有不同,我们目前还没有找到更好的方法来对其进行描述。另外,研究细胞组分的功能预测人员也比较少。他们普遍认为,预测细胞组分不像预测分子功能或生物过程那样能够赢得学术声誉。
CAS:您认为该领域的主要瓶颈是什么?
我们确实需要更多计算力和更多的想法,还有研究更多的蛋白质。将功能表示为本体论的整个思路不同于将结构表示为弹珠和 3D 空间。有了结构,我们可能会争论需要多少颗弹珠以及弹珠的精确度,但这是实实在在的东西。本体论是哲学术语,基本上是对现实的主观表述。随着时间的推移,它会根据我们对自然的理解以及研究重点的转变而变化。
CAFA 某小组曾表达过这样的观点:“我们不要尝试预测蛋白质功能,而是尝试预测生物信息收录管理人员下一步会做什么。”他们预测了该轮 CAFA 中生物信息收录管理人员的验证数据中将包含哪些功能——他们会优先考虑哪些功能。他们虽未采用排名前十的方法,但也做得不差。我们无法对尚未通过某种方式进行实验验证、并由生物信息收录管理人员输入数据集的内容进行预测,因此整理的内容非常重要。
CAS:主要瓶颈之一完全不是计算问题,而是实验室正在完成的工作和发表的成果?
实验,也是实验发表的方式——为什么不直接将结果作为本体论发布呢?当发现了新的蛋白质序列后,在撰写论文时,需要将该序列存入存储库,如 GenBank。或者,当发现了新的蛋白质结构时,需要把这个结构存入蛋白质数据库,而存入时序列和结构的表达方法有非常严格的规定。还应该制定关于如何使用本体论方法表示蛋白质功能的指南,我认为研究人员知道怎么做。
生物信息收录管理人员信誓旦旦地表示:“不,研究人员不应该这样做。他们不知道如何使用本体论。”但生物信息整理是目前的瓶颈所在。针对这个问题有两个不同意见:一是这项工作应当仅由生物信息收录管理人员承担,因为他们知道怎么做;而另一种意见则认为,每个人都应当这样做,但这可能会导致注释错误。实际上,我不清楚如何解决这个问题。有人认为,为研究人员提供更好的本体使用培训可能会有所帮助,但生物收录科学家对选择适当的本体术语和正确的关系有着更好的理解。
CAS:您认为自然语言处理模型 (NLP) 的最新进展可以用于生物信息收录管理吗?
目前我并不这样认为。想要正确地实现这一点,我们需要的不仅仅是大型语言模型。规则很复杂,这也是我们使用人力来开展这项工作的原因。人类非常擅长处理复杂的任务,我认为这对 NLP 来说太复杂了。另一个问题在于,有时难以通过本体进行关联,并且有时本体术语不一定始终正确,特别是对于新发现的功能,需要创建新术语并将其正确地放置在适当的本体中。
此外我们还需要面对高通量瓶颈。高通量实验会产生大量数据,但它们产生的只是特定分析所适用的数据。这意味着这些数据通常信息含量较低。我们在 2013 年对此进行了研究,得出的结论是,注释蛋白质数据库与高通量实验结果之间高度失衡。
比如,我们查看了 21 世纪前十年后期发表的研究胚胎发育和秀丽隐杆线虫 (C. elegans) 的一系列论文。研究人员通过全基因组分析来了解胚胎发育中涉及的因素,当时有关秀丽隐杆线虫的其他实验数据很少。因此,单凭这些数据,该模型就可以得出结论:秀丽隐杆线虫所做的一切都关乎胚胎发育,因为所有数据都表明这一结论。这些高通量实验形成了偏差,其问题在于,如果没有人为干预,模型呈现出的世界观会有失偏颇。
CAS:您认为目前蛋白质功能预测领域有哪些重大机遇?
CAS:如果您有一根魔杖可以改变药物发现过程中的任何事情,您会改变什么?
我希望能够自动、准确地整理论文信息,并针对该等信息形成长期有效的计算表示。但正如我之前所说,我们现在依靠人工来做这项工作是有充分理由的。我甚至不一定认为基因本体或任何本体是长期有效的唯一表示方法,但目前我还想不出更好的办法。这很困难,因为我们使用本体来表示事物是一个瓶颈,但换个角度来说,这几乎就像在说人类语言是也是瓶颈一样。这个话题涉及到哲学领域,我没有资格谈论这个!
Iddo Friedberg 博士是爱荷华州立大学兽医学院的副教授。他拥有生物信息学博士学位,在计算宏基因组学和蛋白质功能预测领域深耕多年。他的研究旨在利用海量组学数据预测蛋白质和基因功能,并致力于将志同道合的科学家聚集在一起,共同探讨自动化蛋白质功能预测。作为“功能注释关键评估” (CAFA) 实验的联合组织者,Iddo 正处于蛋白质功能预测未来领域的前沿。CAFA 是一项旨在对用于预测蛋白质功能的计算方法进行大规模评估的实验。
Iddo Friedberg 博士是爱荷华州立大学兽医学院的副教授。他拥有生物信息学博士学位,在计算宏基因组学和蛋白质功能预测领域深耕多年。他的研究旨在利用海量组学数据预测蛋白质和基因功能,并致力于将志同道合的科学家聚集在一起,共同探讨自动化蛋白质功能预测。作为“功能注释关键评估” (CAFA) 实验的联合组织者,Iddo 正处于蛋白质功能预测未来领域的前沿。CAFA 是一项旨在对用于预测蛋白质功能的计算方法进行大规模评估的实验。