随着计算生物学在药物发现领域的持续推进,这一过程中不断涌现出新的挑战和机遇。序列分析一直是生物信息学的一大重要方面。在本篇文章中,我们与 NullSet Informatics Solutions 创始人兼生命科学数据分析专家 Jefferson Parker 博士探讨了药物发现领域中序列分析的最新前沿。
CAS:作为计算生物学家,您在药物发现的过程中担任过哪些职位?
我从事过各种工作,从支持药物发现实验室到转化研究小组。最近,我与临床团队开展合作,负责运营和开发事宜。我支持药物警戒团队进行安全数据分析,从事业务拓展和竞争性情报工作。我还曾作为生物信息学分析师加入过软件工程团队,在湿实验室科学家和软件开发人员之间担任翻译。
CAS:为什么序列分析在药物发现中如此重要?
在(药物)发现领域,你可以使用序列分析技术来筛选靶标发现。通过观察转录组水平上发生的变化,可以将其映射到所掌握的任何通路知识上,并提出“最有可能的上游原因是什么?”这一问题。这些信息有可能成为药物靶标,或在信号层面上接近药物靶标的内容。如果药物旨在针对特定靶标,则该技术有望帮助确认是否达到了目标。
此外,你也可以开始寻找患者选择的生物标志物。在表达水平或 DNA 序列水平上,是否存在具有各种突变的特定基因图谱?患者体内是否存在某些特定突变,会使患者更容易或更不容易受到药物影响?在制药行业中,这一领域非常令人振奋且欣欣向荣。如果能够在治疗前事先知道,这种药物应该有效,或者可能无效,这将真正决定治疗的成败。
此外,你也不会浪费患者的宝贵时间。特别是像肿瘤学这样的领域,患者并没有太多时间,不能浪费患者的时间反复试错,使用药物进行多线治疗但却不起作用。
所有这些都涉及到序列分析。这一技术涉及药物开发流程的各方各面。
CAS:您认为序列分析的最大挑战是什么?
我想说的是,实际上这些挑战下降得非常快,因为技术每年都在不断进步。过去,读数非常短小,组装也是一大挑战。如今,我们的读数越来越长,尽管组装仍然是一个挑战,但难度已经有所降低。
想象一下,把《战争与和平》丢进碎纸机。你得到的是一些几毫米乘几厘米的页面碎片,因此很难把它们重新组装成一本书。但如果页面的碎片更大更长,并且还有一大块段落而不是某个单词的碎片,那么以正确的顺序重新组合故事便会更加容易。随着读数变得越来越长,现在的情况便是如此。
存储仍是一个难题。即使在最近的工作中,我们也必须移动序列数据,而最快的方法是将其载入硬盘驱动器,然后再放进 FedEx 快递盒。与通过互联网移动数百 GB 或 TB 的数据相比,将数据装在盒子里运输要快得多。问题不在于本地存储,而是将大量数据从一个地方传输到另一个地方。如今,一旦得到了所需数据,即可获取足够的计算能力来运行测序项目,但将数据传输到机器仍是一大瓶颈。
此外,人源性样本也是一项挑战。这类采样很痛苦,往往需要进行侵入性活检,因此患者不愿提供多个样本。完成采样后,样本通常会采用福尔马林固定和石蜡包埋的方式进行保存,因此任何核酸物质都会在一定程度上被降解。有很多方法可以尝试提取并使用这种已制备好的样本组织进行测序,但序列质量总会受到影响。
对于小公司而言,该技术的成本也非常高昂——这类机器需要投入大量资金。同样,计算生物学家也变得越来越普遍,但他们并非无处不在,而且人人都想就职于最大、最好的公司,赚最多的钱。劳动力储备在增长,但仍然相对有限。
在某种程度上,希望从事序列分析工作的人没以前那么多了。大家都想创造下一个伟大的学习模式。重点不再是数字运算和数据分析,而是先进的人工智能和机器学习。人人都想从事新兴、热门且前途光明的技术——而序列分析不在此列。因此,这种情况很快将会成为一项挑战。
CAS:现在是否的确需要计算生物学家来负责序列分析?
如果你采用模板化的完善方法论,经过充分的开发、验证和文档记录,那么您不需要计算生物学家。你不需要聘用特定人员来制定新方案。现在有许多现成的软件解决方案可以从所有不同的测序机器获取输入数据。你仅需载入数据,将其拖放到所需处理的管线图标,然后按下按钮。接下来你就可以去喝杯咖啡、吃顿午饭,或者根据正在使用的仪器大小,可以先回家,等到早上回来时便可完成操作。你无需聘请我这样的人来负责这类工作。任何精通技术的助理研究员都能操作。
但另一方面,如果你使用的是尖端测序仪,并试图推导出一种未曾尝试的新型分析方法,那么你无法采用现成的解决方案。为此,你需要一个了解生物学的人,此人应了解数据输入、数据输出、数学和任何其他相关知识。为了结合所有这些内容,并将其融入某个非现成的新型解决方案中,你便需要像“我”这样的人,或了解上述所有环节的专业人士。
CAS:人工智能和机器学习会对序列分析有帮助吗?
有了精心策划的数据集,人工智能和机器学习技术无疑将大有帮助。可以肯定的是,某些组织正在应用机器学习技术来使用文献并构建知识图谱,这肯定会发挥作用。人工智能和机器学习是否能帮助完成序列组装?可能吧,但我不确定这是否操之过急了。
CAS:您对 AlphaFold 有何看法?它可以对蛋白质结构进行人工智能预测。
我认为 AlphaFold 十分具有颠覆性。它可以为我们提供一条更快的结构路径,可以比以前更快地用于计算机辅助药物设计等工作。你不再需要 NMR 或晶体结构来设置起点。它是否和晶体结构一样好?可能不会。测量得出的真实信息始终优于模拟的结果。但在时间层面,你可以立即获得某些信息。它将带来一种前所未见的影响。我觉得,AlphaFold 的出现像是将石头扔进池塘,它产生了影响,但这只是正在形成的最初涟漪。
CAS:您认为药物发现领域的人工智能和机器学习的前沿是什么?
我认为是和空间相关的领域,即下一代的单细胞。多组学。此外还有 DNA、RNA、蛋白质和代谢组学,以及上述所有领域的整合。甚至还有与细胞途径和细胞间通讯的结合。它不再局限于单细胞层面。该领域放眼于单个细胞及其旁边的细胞,再延伸到这类细胞周围的细胞;它们之间如何相互作用?这就是它的发展方向,也是它正在发展的领域。
CAS:您认为我们是否可以创造生物系统的模型?
如果您在我读研究生时问我这个问题,我会说人类没有能够描述生物系统的数学理论。生物学是复杂的化学,化学是复杂的物理,而物理是复杂的数学。这是一切的基础。物理学是可以通过数学解决的问题,只需要大量数据即可,而化学在某种程度上也是如此。但是生物学……我曾经相信,无论是在过去还是将来,人们都没有能力对某个生物系统进行数学建模。
但现在,这可能是该学科必须要走的发展方向。为此是否需要量子计算机?或许吧?尽管这可能发生在我的有生之年后,但我现在很确信:在某一时刻,人类将能够对生命系统进行精确和可靠的计算模拟。这番话让我略感焦虑。我知道在数字孪生领域仍有很多工作要做。尽管第一步应用场景受到限制,但数字孪生技术现在已经上线并用于临床试验。这就是它的开端。
CAS:您认为推动这些新前沿向前发展需要什么?是新算法、新框架,还是其他?
这些全都需要——我们需要用新的方式来思考这一问题。可以在应用旧算法的同时,采用新方法设计或实现新算法。对于表观基因组学、DNA 动力学或非编码 RNA 空间、外显子组与其他所有方面,这都不同于单纯的序列分析。这是一种不同的思考方式。它仍然是序列,但不仅限于序列层面。不同的思考方式需要不同的工具。
CAS:如果您有一根魔杖可以改变药物发现过程中的任何事情,您会改变什么?
我会让所有数据都经过充分标注,并面向所有人公开。这包括来自公司、机构、大学等各处的所有专有数据。在经过充分标注和文档化的统一存储平台,人人均可免费使用这些数据。因为这样便足够帮助我们解决大难题了。
Jefferson 在麻省理工学院开始了他的科研生涯,研究革兰氏阳性土壤细菌食红球菌中的外来生物代谢。当他试图注释基因组以开发 DNA 微阵列时,面对超负荷的数据,他进入了计算领域,此后一直在生物学、计算和数学的交叉领域工作。他的职业生涯曾涉足小型制药公司、大型制药公司和咨询机构,包括诺华和汤森路透。在此期间,Jefferson 获得了宾夕法尼亚州立大学应用统计学研究生证书和波士顿大学计算机科学硕士学位。
现在,Jefferson 正在开辟一条新道路,他拥有自己的生物信息学咨询公司 NullSet Informatics Solutions,提供数据和分析、数据建模以及技术项目管理服务。
Jefferson Parker 博士在麻省理工学院开始了他的科研生涯,研究革兰氏阳性土壤细菌食红球菌中的外来生物代谢。当他试图注释基因组以开发 DNA 微阵列时,面对超负荷的数据,他进入了计算领域,此后一直在生物学、计算和数学的交叉领域工作。他的职业生涯曾涉足小型制药公司、大型制药公司和咨询机构,包括诺华和汤森路透。在此期间,Jefferson 获得了宾夕法尼亚州立大学应用统计学研究生证书和波士顿大学计算机科学硕士学位。现在,Jefferson 正在开辟一条新道路,他拥有自己的生物信息学咨询公司 NullSet Informatics Solutions,提供数据和分析、数据建模以及技术项目管理服务。