企业新闻
登哈佛医学院ProteinGym榜单!洪亮团队大模型再获佳绩
2024-04-25
日前,由天鹜科技创始人&首席科学家洪亮教授团队提出的ProtSSN几何感知大模型系列,在哈佛医学院ProteinGym-Substitution榜单中崭露头角,夺得非检索方法排名第一的桂冠,并在总榜TOP10的排名中占据了5个席位。
此外,这一系列大模型在多个关键领域均展现出卓越的性能:对真核蛋白的预测能力位居榜单第一,对原核蛋白的预测能力排名第二,对人类蛋白的预测能力居榜单第三。
榜单链接:https://proteingym.org/benchmarks

 

全球最权威的蛋白质定向进化榜单

 

哈佛医学院ProteinGym榜单是由哈佛大学医学院创立的蛋白质突变性质预测榜单,旨在评估各大型人工智能模型对蛋白质单点和多点突变预测的能力,被业内视为当前全球最具权威性的蛋白质定向进化榜单。

本次评估中,哈佛医学院系统性收集整理了217个高通量实验蛋白质的单点位和多点位突变数据集,共计包含了250万条突变实验数据,如GFP(绿色荧光蛋白)、AAV(腺相关病毒)等,涵盖了活性、稳定性等多方面性质。
参与团队将蛋白质突变体输入到AI模型中得到对蛋白质的突变体的合理性(适应度)评估分数、模型预测分数与真实实验数据进行相关性比对,相关性越高说明模型对蛋白质性质的捕获能力越强,排名也越高。
洪亮团队的ProtSSN系列模型结合了序列大模型和等变图神经网络模型的优点,在蛋白质晶体结构域CATH数据集上进行去噪方法的训练。预测时,该系列模型首先将蛋白质序列输入到序列大模型中,得到高维且丰富的向量表征;后通过建立图神经网络,利用氨基酸之间的拓扑关系来表示蛋白质结构。在蛋白质一级序列的丰富表征和三级结构的显式约束下,实现了语义和拓扑双重增强的表示捕获,极大地提高了零样本场景下对蛋白质活性和热稳定性等的端到端预测能力。
最终结果显示,利用ProtSSN系列模型在零样本场景下预测这些蛋白质突变体的性质,得到的结果准确率超过Meta、微软剑桥研究院团队等团队。

详细原理链接:
https://www.biorxiv.org/content/10.1101/2023.12.01.569522v2.abstract

Tan Y, Zhou B, Zheng L, et al. Semantical and Topological Protein Encoding Toward Enhanced Bioactivity and Thermostability[J]. bioRxiv, 2023: 2023.12. 01.569522.

目前,ProteinGym榜单已经涵盖了超过60个语言、几何、检索模型,这些模型来自于包括洪亮团队、Microsoft Research in Cambridge、David Baker团队、Meta团队、德国慕尼黑工业大学 Rost Lab、哈佛大学 MarksLab等在内的二十余著名企业或科研机构。