企业新闻
设计蛋白质,AI比人类更擅长?探索蛋白质设计新旧方法的差异
2024-05-29

 

 

   导读   

 

自1838年瑞典化学家永斯·雅各布·贝采利乌斯(Jöns Jakob Berzelius)创造了“蛋白质”这个词以后,人类对这类大分子的探索与利用便不断加深。

 

 

 

 

蛋白质由氨基酸序列通过肽键连接,折叠成复杂的、形态各异的三维结构,从而在生物体中扮演着催化生化反应、构建细胞结构、调节生理机能、参与免疫反应以及控制生物运动等关键角色,是生命体正常代谢、生长发育、健康维持和疾病预防的根本。
在工业的舞台上,蛋白质同样扮演着举足轻重的角色——不仅在医药领域作为主要成分出现,如抗体、融合蛋白药物等;还在化妆品中增强抗衰老效果,如胶原蛋白等。此外,蛋白质还在食品、纺织、农业、环保和能源等众多领域中发挥着降本增效、改善产品质量等重要作用。

 

 

 

什么是蛋白质设计?

为什么要对蛋白质进行设计?

 

 

蛋白质设计

更好地服务工业生产

 

蛋白质的功能是由生物体的遗传信息所编程和决定的,它们在自然界中演化而来,但这种自然选择和演化过程中形成的特性,有时并不符合工业生产或医疗应用中所要求的严格标准和条件。例如,在极端工业环境下蛋白质稳定性不足,或者直接作为药物使用,可能引发不良反应等等。因此,蛋白质设计这一研究领域应运而生。
20世纪初,科学家们开始探索如何设计蛋白质以获得更优、更适合工业环境的蛋白质,来帮助人类解决实际问题,如疾病治疗、环境修复等。到1978年,加拿大生物化学家迈克尔·史密斯(Michael Smith)首次提出了定点突变技术,这一创举标志着改造、设计蛋白质的新时代的开启,而他本人也因此荣获1993年诺贝尔化学奖。
随着科技的日新月异,蛋白质设计领域已从早期的探索性研究逐渐转变为今天的精准工程设计,并衍生出了定向进化、半理性设计、理性设计等多样化的设计方法。

定向进化通过模拟自然选择,利用随机突变和高通量筛选,从众多突变体中筛选出具有期望特性的蛋白质。

理性设计则基于对蛋白质三维结构和生物学功能的深入理解,通过有针对性地设计突变来实现蛋白质性能的优化。

半理性设计则结合了前两者的特点,通过在关键活性位点或结构域引入突变,构建较小规模的突变体文库。

尽管这些传统的设计方法在改造蛋白质方面取得了一定成绩,但也存在一些共同的挑战,如筛选效率低、专业知识要求高、预测准确性不足,以及高质量突变体文库构建和筛选的高成本和时间投入......这些挑战限制了蛋白质设计的效率和应用范围,增加了研发具有自主知识产权的蛋白质产品的难度,难以满足产业界对效率和创新的迫切需求。

 

 

AI大模型

蛋白质设计的新方向?

 

 

在这样的背景下,AI大模型的引入为蛋白质设计领域带来了革命性的变化。
AI大模型在自然界中海量的蛋白质序列上进行训练与学习,掌握了蛋白质序列,结构与功能之间的复杂关系,从而能够预测序列变化对蛋白质功能的影响。这种预测能力是把世界上所有蛋白的特点都学习了,构建了一个通用人工智能方法,即一个AI模型为不同类型、不同领域的蛋白质设计提供了更广泛的改造方向,也使得它在设计具有特定属性的蛋白质时变得极其高效。
以设计一种能够在极端高温环境下稳定工作的酶为例。
在传统蛋白质设计方法中,生物学家往往会基于酶的热稳定性改造的过往专家经验,通过实验室多次试错来逐步改进这种酶的热稳定性。这个过程可能需要数年的时间,且受限于人类的知识和对蛋白质功能认知的局限,不一定能达到预期的效果。
使用AI大模型进行蛋白质设计就完全不同了,AI大模型会根据自然界中已知的大量耐热酶序列和结构上捕捉到影响蛋白质热稳定性的关键因素和特点(这是人脑无法做到的),当需要设计新的耐热酶时,AI大模型可以根据这些模式和特点,快速将这些特点施加在目标蛋白上,在保证活性的前提下迅速提高其热稳定性。
这种AI大模型指导的蛋白质优化方案,不仅优化效果显著,阳性率高,而且能够发现人类理性设计难以触及的优势突变点位,有助于突破现有专利保护的局限。与传统方法相比,AI大模型能够在不依赖专家经验的情况下,通过预测和少量实验,在短短2-6个月内完成蛋白质性质的优化,而传统方法则需要2-5年时间和大量实验验证才能达到类似的性质提升。
目前,AI大模型在蛋白质设计领域的应用已经取得了一些令人瞩目的成果,国内AI蛋白质设计领域的先驱上海天鹜科技有限公司(下称天鹜科技)开发的AI蛋白质设计通用大模型AIACCLBIO™(注:源自洪亮团队在学术论文中提出的Pro系列模型),通过结合大量的计算算法和少量的湿实验,可为各个领域设计出性能卓越的蛋白质序列。

 

 

天鹜科技

AI蛋白质设计大模型AIACCLBIO™

 

 

作为最早一批成立的AI蛋白质设计服务提供商,天鹜科技仅用3年不到的时间,便成为目前国内顶尖的AI蛋白质设计服务企业。
凭借包含7.8亿条各类环境下生物体的蛋白质数据库,天鹜科技成功研发了核心产品AI蛋白质设计大模型AIACCLBIO™。该大模型采用最前沿的Transformer架构和掩码语言模型技术,可深入理解蛋白质序列、结构、功能之间的复杂关系,直接实现从“序列到功能”的端到端预测,具备真正的零样本或极少样本高效预测能力。
使用“AIACCLBIO™大模型自动设计+少量实验验证”可以实现对所有种类蛋白质序列进行设计,多款蛋白质设计案例证明,该技术不仅可以在蛋白质的稳定性、活性、亲和力等关键指标的优化上,达到甚至超越世界领先水平,还可将蛋白质性质的优化时长从传统的2-5年大幅缩短至2-6个月。

 

 

自创立以来,天鹜科技的AIACCLBIO™大模型已为众多行业领军企业提供服务,覆盖创新药物、体外诊断、营养保健、食品饮料、美容护肤、洗涤纺织、生物能源、生物农业以及环境工程等多个领域。它有效地解决了传统蛋白质设计方法耗时长、成本高、阳性率低、多指标优化困难等问题,显著提升了客户蛋白质产品的性能,缩短了研发周期,降低了生产成本,并助力客户建立了具有竞争力的专利布局。

 

 

   结语   

 

传统蛋白质设计方法与AI大模型通用人工智能蛋白质设计方法的比较,不仅是技术的较量,更是时代的选择。AI大模型蛋白质设计以其高效率、低成本、创新潜力大等优势,正逐步成为蛋白质设计领域的新宠。随着技术的不断进步,我们有理由相信,AI大模型将在未来的蛋白质设计中发挥更加重要的作用,为人类社会带来更多的可能性。