人类对酶与蛋白质的利用,早在几千年前就开始了——4000年前,勤劳又智慧的中国人民就开始利用大麦芽制造饴糖,也就是今天的麦芽糖。但那时人们并不知道这里面的原理,更不知道有一种叫做“糖化酶”的东西是其中的功臣。
几千年后的19世纪末,德国有机化学家费歇尔(Emil Fischer)提出了蛋白质的多肽结构理论,这一研究不仅让他荣获了1902年的诺贝尔化学奖,也对蛋白质功能的研究起到了重要的推动作用。
从序列直达功能的精准蛋白质设计?
在当今生物技术领域,企业对高性能蛋白质的需求日益增长。然而,自然界中的蛋白质往往无法直接满足企业生产的特定需求,因此需要通过设计和改造来提升其性能。传统上,蛋白质设计遵循“序列决定结构,结构决定功能”的原则,从氨基酸序列出发,预测或通过实验确定蛋白质的三维结构,然后基于这一结构进行理性设计,优化蛋白质的功能。
随着AlphaFold等先进技术的出现,蛋白质结构预测的准确性得到了显著提升,大大降低了解析蛋白质结构的难度。但是,即便如此,蛋白质从结构到功能的映射关系依然复杂,涉及对蛋白质复杂空间构型的深入理解、功能机制的多样性与复杂性,以及蛋白质之间错综复杂的相互作用模式等难点。
面对这些挑战,一个自然而然的问题是:我们能否绕过结构预测,直接从序列预测功能?虽然人类难以仅凭序列直接理解蛋白质的功能,通常需要借助三维结构来揭示功能,但人工智能(AI)技术的发展为我们提供了新的可能性。
从进化的视角来看,蛋白质的功能是由其结构决定的,而结构又是由氨基酸序列决定的。蛋白质序列蕴含了形成其结构和功能的完整信息。鉴于序列数据的丰富性和结构-功能关系的理解难度,我们是否可以探索一种创新的方法,直接从产业需求的功能出发,设计改造序列,实现从序列到功能的精准蛋白质设计?
基于这种思考,上海天鹜科技有限公司自主研发了一个AI蛋白质设计大模型AccelProtein™(源自上海交通大学洪亮教授团队的Pro系列人工智能),该大模型在自然界中海量的蛋白质序列上进行训练与学习,掌握了蛋白质序列、结构与功能之间的复杂关系,从而能够预测序列变化对蛋白质功能的影响,实现了从蛋白质序列到功能的端到端映射。
应用案例——某糖基转移酶多指标优化
在与一家体外诊断核心原料企业合作中,该企业希望能提高某糖基转移酶催化生产过程中的目标产物产率,由于该酶法催化反应过程十分复杂,存在众多副反应和水解反应,通过传统的定向改造方法存在很大难度,往往出现“压下葫芦浮起瓢”的情况。此外,该酶并没有明确的晶体结构信息,传统的基于结构的功能优化方法在此显得无能为力。
AI蛋白质设计大模型AccelProtein™通过序列到功能的直接映射,对突变体的不同功能指标都能准确表征,可以做到对突变体的多个指标进行同步优化,这种方法不仅提升了主要产率指标,还有效减少了副反应的发生,为解决这一难题提供了创新的解决方案。
最终,在短短4个月时间内,AccelProtein™帮其完成了优秀突变体的改造,改造后总反应活性提高8倍,同时其他副反应和水解反应显著降低,目标产物的产量提高至原来的两倍。目前,该成果已经实现落地生产,预计今年完成千公斤级产能,大幅降低了该检测原料的生产成本,实现高质量国产替代。
结语
随着生物信息学和人工智能技术的不断进步,基于蛋白质序列预测其功能已成为行业发展的大势所趋。这种方法不仅提高了研究效率,降低了成本,还为企业在产品创新和生产优化方面提供了新的机遇。展望未来,这一趋势有望进一步推动生物技术领域的创新和突破,为人类社会带来更多的福祉和进步。