当前位置: 首页 > 科技观察

昇思MindSpore再突破:蛋白质结构预测训练推理全流程开源,助力生物医药发展

时间:2023-03-21 12:25:20 科技观察

盛思MindSpore再获突破:蛋白质结构预测训练推理全过程开源,助力生物医药发展全场景AI框架MindSpore。继2021年11月发布推理工具后,本次培训意味着国产AI框架具备了强大的AIforScience底层软件能力,也为相关科研人员提供了新的选择。联合工作基于鹏城云脑II升腾AI集群,单步迭代性能提升60%以上,TM-score达到85分(国际权威测评数据集CASP14).相关训练代码已在MindSpore社区开源,未来将在Openl启智社区开源并定期扩展维护。T1052-D1预测结构图(左)CASP1487targetsTM-score比较(右)蛋白质结构预测是获得蛋白质功能结构和构象的过程。近半个世纪以来,这一问题一直被誉为“生物学中最重要的物理学课题之一”。过去,由于蛋白质构象数量庞大,计算过程复杂,预测一直没有取得实质性突破。通过AI获取蛋白质结构,目前获取蛋白质空间结构的方法仍以冷冻电镜、X射线等实验技术为主,蛋白质观察成本高达数月、数百万人民币,直到AlphaFold2的出现,这一期迎来了新的曙光,AlphaFold2以近乎实验的精度夺得CASP14蛋白质空间结构预测竞赛的头把交椅,这一成绩也被Nature誉为“前所未有的进步”。2021年7月,DeepMind宣布将开源AlphaFold2推理代码,盛思和高益勤研究团队首次复现优化。同年,他们还开源了基于盛思MindSpore的推理工具,效率同比提升。2-3次。由于开源的范围仅限于推理,相关从业者无法据此进行优化,因此很多团队积极投入训练过程的复现。AlphaFold2模型本身具有内存需求大、数据处理繁琐、控制编译复杂等特点,对基础AI框架提出了极大的挑战。近日,盛思MindSpore、高益勤课题组、鹏城实验室陈杰团队全面开放了AlphaFold2的训练。采用升腾基础软硬件平台后,在混合精度下,单步迭代时间从20秒缩短到12秒,性能提升60%以上。依靠圣思MindSpore的记忆复用能力,训练序列的长度从384增加到512。为了尽可能客观地评估训练结果,圣思MindSpore选取了AlphaFold2论文附录中提到的87个验证集进行确认。平均TM-score达到了85分,与AlphaFold2基本持平。盛思MindSpore对蛋白质结构预测训练和推理的支持填补了国内AI软硬件的空白。在训练精度接近AlphaFold2的基础上,盛思MindSpore将在算法、规模和软硬件支持等方向持续改进,并计划开放共享训练数据集供同行使用。晟斯MindSpore也期待与更多的学术界和产业界伙伴合作,进一步提升模型精度,拓展应用场景。代码开源路径:https://gitee.com/mindspore/mindscience/tree/dev/MindSPONGE/mindsponge/foldMindSpore:Gitee:https://gitee.com/mindspore/mindsporeGithub:https://github.com/mindspore-ai/mindspore