近日,上海交通大学教授洪亮团队发布最新成果。团队将AI和蛋白质设计与改造相结合,建立了全球最大的蛋白质数据集,基于该数据集训练的模型,可以精准、高效地预测、设计蛋白质的功能,把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”。该成果配合行业领先的自动化设备,已经进行产业化落地。
蛋白质是由氨基酸序列构成的,氨基酸序列的长度从数百个到上千个不等。洪亮团队建立的蛋白质序列数据集Venus-Pod,含有近90亿条蛋白质序列,包含数亿个功能标签,是全球数据规模最大、功能批注标签最多的数据集,也是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。
该数据集包含36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列,覆盖从常规地表生物到极端环境微生物的蛋白质序列信息。
这些数据意味着什么?洪亮介绍,该数据集构成了巨大的“蛋白质矿藏”,使得人类有可能挖掘新的蛋白或者生物催化剂,助力生物医药和合成生物学的快速发展。他说,AI大模型有望通过海量数据的学习和掌握自然界蛋白质的进化模式,为设计优异的蛋白质产品提供宝贵的学习资料。
2024年,诺贝尔化学奖颁发给谷歌DeepMind团队,该团队利用AI技术精准解析了蛋白质序列到三维结构的关系,解决了困扰生物学家长达50年的难题。然而,一个现实的问题是:如果人们稍微改动蛋白质的氨基酸序列,哪怕只是1%的微小改变,蛋白质的整体结构看似没有发生明显变化,但它的功能大概率会变差,甚至完全丧失。换言之,要设计出一款成功的蛋白质产品,不能只关注它的三维结构,而是要能成功预测和设计它的功能。
因此,洪亮团队“另辟蹊径”,不再执着于蛋白质的结构,而是直接瞄准“功能预测”这一终极目标,将复杂的蛋白质设计变成以需求为导向,配合少量实验输出结果的简单过程。
“我们训练的Venus系列模型,与DeepMind团队的AlphaFold预测蛋白质结构不同,这个模型可以学习自然界蛋白质序列的组织规则以及它与功能之间的关系,其预测蛋白质突变功能的精度位居行业榜单之首。”洪亮表示,Venus系列模型具备两大核心功能——“AI定向进化”与“AI挖酶”。
所谓“AI定向进化”是指Venus系列模型可以对一个不尽如人意的蛋白质产品的多种性能进行优化,让它成为一个“六边形战士”,满足应用需求。而“AI挖酶”则是指Venus系列模型基于其海量的未知功能蛋白质数据集,可以“海选超能力战士”,去精准发掘满足苛刻应用需求的具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。这些超常规功能的蛋白质在生物技术、医药研发和工业生产中具有巨大的应用潜力,能够为相关领域带来创新和突破。
未来,科研人员可以从繁琐的设计和实验中解放出来,他们只需要提出问题,AI和自动化来解决问题,最终将复杂的蛋白质科学发现变成“傻瓜相机拍照式”的简单过程。
目前,这项研究已被多家企业使用,其设计的多款产品已经落地,助力阿尔茨海默病等疾病的诊断。
符云霞 江倩倩 中青报·中青网记者 王烨捷 来源:中国青年报
2025年04月14日 08版