
本文转载自上海科技
在科学面临历史性机遇的今天,人工智能和传统科研结合带来的巨大潜能正在为各领域带来前所未有的新机遇,各行业开始探索从“AI for Science”到“AI for Engineering”的落地应用,上海交通大学自然科学研究院&物理与天文学院&药学院特聘教授洪亮便是其中的先行者。

2021年以来,洪亮教授团队致力于推进通用人工智能在蛋白质工程领域的创新研究,自主研发了 Pro系列蛋白质工程通用人工智能。如果说ChatGPT是通过用大模型理解人类文字排列方式来做智能问答,那么Pro系列则是用大模型理解自然界蛋白质的氨基酸排列方式,来设计性能优越的蛋白质产品。Pro系列打造了“AI自动设计+少量实验验证”的蛋白质设计新范式,解决了传统“专家经验&大量试错”范式下,蛋白质设计时间长、成本高、阳性率低以及多指标优化难度大等核心问题,在提升企业产品性能、缩短研发周期、降低生产成本以及建立高壁垒专利布局方面发挥了显著作用。
作为AI for Science的典型代表,Pro系列研究成果已在Nature Communications[1]、JCIM[2]等国际权威学术期刊发表,在美国哈佛大学医学院创立的蛋白质突变性质预测榜单 ProteinGym-Substitution上,Pro系列多个单项指标全球前三[3]。
作为AI for Engineering的先行者,Pro系列将研发模式从依靠专家经验的缓慢试错过程变革为大模型快速精准设计的范式,在一年多时间里,成功交付了20多款不同领域的蛋白设计项目,展现了其在蛋白质工程领域的泛化能力和技术实力,赢得了众多行业头部企业的认可。其中两款生物医药相关蛋白质产品在一年内实现了从小试研究到产业化落地。第一款是和金赛药业联合开发用于纯化生物药的极耐碱的单域抗体,是全球首个大模型设计的蛋白质产品实现5000升工业化生产,该成果为生物大分子纯化提供全新的解决方案,第二款是和瀚海新酶联合开发的糖基转移酶,用于生产胰腺炎筛查核心物料EPS-G7,打破了国外巨头的长期垄断,将成本降至进口产品的十分之一。
AI for Science 典型代表
2020年,AlphaFold 2.0在CASP根据序列预测结构的赛事中摘得桂冠,极大地解决蛋白质折叠问题。近期发布的AlphaFold 3.0又在2.0的基础上拓展了对蛋白质和其它生物大分子以及小分子结合的结构预测能力。
然而一个蛋白质即使拥有正确的结构也不意味着它能有好的功能,例如高活性、高稳定性、高特异性、高表达等等,功能才是一个蛋白质成为产品的关键,也是生物制药、工业酶领域关注的焦点。
因此,洪亮教授团队开始探索另外一条全新的道路。在近代生物学,蛋白质工程领域都是遵循“序列-结构-功能”的路线做蛋白质设计,但按照“第一性原理”,功能和结构信息都应该包含在序列信息之中,我们能否直接通过氨基酸序列来设计蛋白质功能?洪亮教授团队决定用大语言模型来尝试解决这个问题:
首先,收集Uniprot数据库中公开的2.8亿条蛋白质氨基酸序列与结构信息,并通过纵向与横向合作,整合了近5亿条非公开的氨基酸序列与结构信息,以此7.8亿条数据为训练集,用自然语言去学习自然界蛋白质的氨基酸的排列规律[4];
其次,利用9800万条标注了蛋白质各种性能参数的标签信息,进行监督学习,让模型学习不同蛋白质性能的特征;
最后,对模型的打分结果进行少量实验验证,并将实验数据反馈给模型,通过自研小样本学习方法,用实验数据微调大模型使得它能精准预测蛋白质特定功能性质,最终定向进化出理想功能的蛋白质产品。
经过两年多的探索,洪亮教授团队自主研发的蛋白质通用人工智能Pro系列开创性地实现了从序列直达功能的精准蛋白质设计,成为AI for Science的典型代表。相比理性设计、定向进化等传统的蛋白质工程方法,Pro系列不再依赖专家经验,阳性率由不到1%提升至30%,总实验样本数量由成千上万个减少至100个甚至更少,项目交付周期由2-5年压缩至2-6个月,打造了“AI自动设计+少量实验验证”的蛋白质设计新范式。
Pro系列拥有小样本学习[1]、多指标同步优化、多场景应用、多项目并行等工程化能力,其泛化能力也决定了它可以胜任各个领域的需求,是真正的蛋白质工程通用人工智能。洪亮团队在生物信息学和人工智能研究领域的国际权威学术期刊JCIM[2]上发表的最新研究成果也表明,Pro系列人工智能在极少甚至没有实验数据的情况下,在6款蛋白上成功实现了针对特定蛋白质性质的定向进化,这是全球首次经湿实验验证,人类可以通过建立通用人工智能,在极少实验数据甚至无实验数据下实现不同蛋白质特定性质的定向进化。
“以往我们做蛋白质工程,只能针对单个场景下的单个指标慢慢去改,一个工业酶改造三五年很正常,但在过去一年多时间里,我们团队仅用20多位设计和实验人员,便完成了20余款蛋白质设计项目的交付,涉及热稳定性、酸碱稳定性、活性、亲和力、特异性等诸多蛋白质理化性质,覆盖生物医药、营养保健、酶制剂等多个领域,这在以往是绝对不可能实现的。”洪亮教授自豪地谈到。