新AI工具可{预测11亿}个蛋白质——结构
AI工具设计出了能够与细胞毒性T淋巴细胞相关蛋白4(CTLA-4)结合的蛋白质。
本报讯 随着一款人工智能(AI)工具的问世,蛋白质的世界变得更大了。目前,这个新工具已经生成了11亿个预测蛋白质结构和68亿个蛋白质序列的图谱。
5月27日,美国生物医学机构Biohub的研究人员发布了这一名为“ESM图谱”的数据库。Biohub由美国社交平台“脸书”创始人马克·扎克伯格及妻子普莉希拉·陈创立。
ESM图谱预测的蛋白质结构比谷歌旗下深度思维公司的AlphaFold数据库多出8亿多条,比之前的ESM图谱多约3亿条。
“这一图谱全面展现了蛋白质生物学全貌,尤其是其中最不为人知的部分。”领导该项目的Biohub科学主管Alex Rives表示,“我们认为,它将成为生物学新发现的重要基础。”
这些预测结果是利用AI模型ESMFold2得出的。Biohub称,ESMFold2是完全开源的,其性能超越了AlphaFold3的最新版本和其他蛋白质结构预测AI系统。
ESMFold2基于Rives团队2024年发布的蛋白质语言模型。该模型由来自“生命之树”的数十亿个蛋白质数据训练而成,包含土壤、海洋和其他环境的宏基因组序列,而这些序列并未收录于AlphaFold的数据库中。
研究人员表示,在确定相互作用蛋白复合物的正确结构方面,包括抗体分子与其抗原分子靶点的结合上,ESMFold2的表现优于包括AlphaFold3在内的现有方法。
在一篇公布于预印本服务器的论文中,研究人员描述了他们如何利用ESMFold2设计能强力结合癌症和免疫疾病相关蛋白的新型抗体及其他蛋白质。实验室测试显示,很大比例的设计结果都与预期一致。
Rives表示,希望这一免费开源的ESM图谱能帮助科学家在蛋白质世界的已知与未知部分建立联系。
在瑞典隆德大学的Gemma Atkinson看来,新发布的ESM图谱是“生物学领域的一个非凡资源”。“看到大规模蛋白质语言模型如何捕捉蛋白质生物学的基本规律,令人感到兴奋。”
英国伦敦大学学院的Christine Orengo认为,这些预测虽然首先需要经过评估,但有助于发现新的蛋白质折叠方式和功能,对蛋白质设计和生物学基础研究具有重要意义。
韩国首尔大学的Martin Steinegger最关心的是ESMFold2在预测与已知结构不同的蛋白质方面表现如何。他的团队发现,ESMFold1在预测非常规蛋白质结构方面表现并不出色,尤其是那些存在于宏基因组数据中的结构。
美国麻省理工学院的Sergey Ovchinnikov则认为,ESM图谱是对广泛使用的、包含超过2亿个蛋白质结构的AlphaFold数据库的补充,而非替代。
Ovchinnikov补充道,ESMFold2对蛋白质相互作用的预测令人印象深刻,但并不出乎意外。今年早些时候,深度思维公司旗下机构发布了一款专有模型,在预测此类结构方面取得了显著进展。他表示,虽未直接与ESMFold2进行对比,但其他开源模型在预测蛋白质相互作用方面也取得了令人瞩目的成果。
不过,Ovchinnikov认为,ESMFold2完全开源和不受任何商业使用限制的性质,意味着它将得到广泛的应用。“我预计很多人会乐于尝试使用ESMFold2。”(文乐乐)