当前位置: 首页 > 科技赋能

AI4S进入预训练模型时代!深科Uni-Mol超进化屠榜OGB-LSC,开辟材料设计新天地

时间:2024-05-19 16:32:17 科技赋能

Uni-Mol是深科5月发布的基于分子三维结构的通用分子表示学习框架。

机器学习论文将获得 ICLR。

Uni-Mol具有优越的性能和强大的模型泛化能力,在小分子性质预测、蛋白质靶点预测、蛋白质-配体复合物构象预测等任务上超越了以往的方法。

Uni-Mol已应用于孔势科技的多款产品中,也受到了大批学术界和行业研究人员的广泛关注。

同时,我们已将Uni-Mol成功应用于材料设计等更多领域,并取得了优异的成绩。

近期,我们大幅升级Uni-Mol模型框架,推出Uni-Mol+,并在国际权威量子化学性质预测学术竞赛OGB-LSC中获得第一名。

我们在本文中详细描述了这些内容,并在 Bohrium? 科学计算云平台上提供了 Uni-Mol 用例。

Uni-Mol 纸张:预印纸:在各种任务上均优于以前的最佳方法。

图中内部灰色区域是之前最佳方法的效果,外部多色区域描述了Uni-Mol在各种任务上超过之前最佳方法的百分比。

Uni-Mol+:单一模型占主导地位并轻松击败暴力融合解决方案。

OGB-LSC(Open Graph Benchmark,大规模挑战)是斯坦福大学发起的一项学术竞赛,旨在评估大规模图数据上的机器学习。

表现。

本次大赛首次在KDD CUP上举办,吸引了来自DeepMind、微软、NVIDIA、UCLA等顶尖企业和大学的多支参赛队伍,备受业界关注。

近年来,越来越多的新图机器学习模型加入到这一竞赛中来证明其模型性能。

可以说,OGB-LSC已经成为公认的测试图机器学习模型性能的最佳试金石,类似于ImageNet在图像领域的地位。

近日,深圳科技推出了性能进一步提升的新模型Uni-Mol+,也在OGB-LSC的量子化学性质预测任务中获得冠军。

值得一提的是,Uni-Mol+仅使用单一模型,并没有使用任何额外的评分技术。

相比之下,之前的冠军方法不仅融合了多个模型,而且还使用验证数据集进行模型训练。

从这一点来看,Uni-Mol+的模型能力非常强大。

与之前的方法相比,Uni-Mol+在整体框架、模型结构和训练策略上都进行了创新。

从整体框架来看,Uni-Mol+基于RDKit/Openbabel等低成本方法生成初始构象,并迭代优化这些构象以逼近DFT方法得到的高精度稳态构象。

这样,可以基于模型优化的构象获得更准确的量子化学性质预测。

在模型结构方面,Uni-Mol+进一步强化了Uni-Mol的双分支Transformer结构,以更好地捕捉三维空间中的信息。

在训练策略方面,Uni-Mol+提出了一种新的方法——线性轨迹注入,可以更有效地学习DFT构象的优化。

有关这些详细信息,请参阅我们的开源代码和论文。

Uni-MolUniverse:更多应用场景 1. Uni-Mol forQSARQSAR是定量结构-活性关系的缩写,是一种根据化合物的结构来预测其生物活性和生化性质的计算方法。

这种方法将分子结构与其物理、化学性质和生物活性联系起来,然后建立模型,希望该模型能够预测新化合物的生物活性。

QSAR广泛应用于药物设计、环境毒理学、农药研究等领域。

Uni-Mol based Auto-QSAR(Uni-QSAR)是一套基于Uni-Mol模型开发的自动化分子性质预测工具,可供本领域专业人士使用。

我们在TDC ADMET Group Benchmark上比较了当前主流QSAR工具的评估结果。

TDC(Therapeutics Data Commons)是哈佛医学院开发的基准平台。

ADMET包括药物小分子的吸收、分布、代谢、排泄和毒性5个指标。

这些因素对药物的疗效和安全性有着至关重要的影响。

在药物研发过程中,需要对药物的ADMET性质进行评估和优化,以提高药物的成功率,减少不良反应的发生。

Uni-QSAR 在这些任务中表现出了优异的结果。

通过将 Uni-Mol 与高效的自动化工作流程相结合,用户可以自动构建和过滤特征,而无需关注模型细节或调整参数。

同时,Uni-QSAR还考虑了样本不平衡和预测任务类型的多样性(分类、回归、多任务学习、缺失值训练等),用户只需关注自己的任务本身。

Uni-QSAR内测版已成功应用于国际三大知名快消品牌之一,展现出卓越的预测能力。

在多个数据库中,预测的准确性得到了显着提高,超越了其他方案。

该项目已完成第一轮交付,正在探索未来的合作空间。

同时,Uni-QSAR也即将在Hermite?药物计算设计平台上线,敬请期待。

2、Uni-Mol在材料领域Uni-Mol在材料领域也积累了很多应用和案例。

下面我们将选取MOF和OLED的两个经典案例来说明Uni-Mol的多功能性和预测能力的扩展。

MOF材料是由金属离子或团簇与有机配体组成的多孔晶体材料。

MOF材料的气体吸附研究具有重要的理论和实际意义。

例如,它可以用于环境污染控制、能量存储和转换。

、化学催化等领域。

基于Uni-Mol,我们设计并训练了一个跨系统模型Uni-MOF,可以预测不同气体(甚至未知气体)和不同环境(温度、压力等)下的情况,结果也大大超过了之前的单一系统模型。

这种建模思想也和目前流行的ChatGPT非常一致。

可以认为我们在MOF吸附领域实现了统一的模型。

详情请关注我们即将发表的论文。

我们还成功地将Uni-Mol扩展到OLED Ir(III)系统的大规模虚拟筛选,以寻找性能更好的OLED发光材料。

OLED Ir(III)系统是基于有机发光二极管(OLED)技术的发光材料系统,其采用含有铱(Ir)的荧光材料。

该系统具有高效率、低功耗、高亮度、高稳定性等优点,因此在电子显示领域有着广泛的应用。

其中,Ir(III)配合物材料具有较高的荧光效率和发光寿命,可用于制备高效的红、绿、蓝发光器件。

OLED Ir(III)系统在智能手机、平板电脑、电视、汽车仪表板等领域具有广阔的应用前景。

通过利用Uni-Mol强大的预测能力,我们可以大大减少额外的计算成本,高通量的筛选迭代可以进一步提高模型的预测效果(如下左图所示)。

这种大模型训练与QM小规模计算相互迭代的思路也将成为材料研发的新范式。

从下图右侧的结果可以看出,Uni-Mol也满足了OLED材料筛选的基本要求,比如需要光色尽可能纯,plqy尽可能大可能的。

有关更多详细信息,请参阅我们在 ChemRxiv 上的预印本文章:MOF 和 OLED,Uni-Mol 还可以应用于更多材料设计任务。

由于篇幅有限,我们无法一一描述。

我们期待来自不同背景的研究人员与我们一起探索 Uni-Mol 的潜力。

Uni-Mol教程和在线笔记本体验Uni-Mol的详细原理讲解,可以关注青少年科学论坛上的报道(报道详情参见:Bohrium Notebook展示如何快速应用Uni-Mol在Bohrium Notebook上,我们准备了一系列基于Uni-Mol的打包软件库,与开源版本不同,这些小工具和软件包更适合应用层和环境。

并且软件包内置后,界面也进行了二次开发,用户只需关注其具体数据和应用即可,同时我们也不断收集用户反馈并进行承载。

您可以直接点击下面的链接进行体验测试:分子属性预测案例笔记本可以自动加载运行环境,只需几行代码,您就可以训练和预测自己的数据任务并生成自己的数据任务。

属性预测工作流程。

目前,仅显示 Uni-Mol Docking case 笔记本电脑。

对于CASF对接结果,您可以自由选择靶标和相应的配体分子,然后进行对接。

未来将会开放更多功能。

Uni-Mol+的优异性能展现了其在AI4S领域的潜力。

深石科技潜力巨大,正将Uni-Mol+与产品功能深度融合,以用户触手可及的交互形式赋能药物设计、材料设计等相关领域。

我们也在进一步完善和迭代下一代Uni-Mol。

非常欢迎感兴趣的合作伙伴加入我们,共同打造AI4S领域的新一代基础设施。

关于Bohrium? Bohrium?是深圳科技打造的微尺度科学计算云平台,深度优化第一性原理计算、分子动力学等微观结构。

规模科学计算算法和软件提供海量高性能计算能力和高效便捷的计算模拟环境。

Bohrium?致力于打造团队型科研平台,赋能微观科学研究和工业设计。

通过从理论到实践、从需求到解决方案的不断优化和理解,Bohrium?希望成为教师教学最便捷的平台和学者进行研究最便捷的平台,让教师有更多的精力专注于教学和研究。

让学者们有更多的精力专注于科学研究,释放科学家的生产力。

Bohrium?官网:bohrium@dp.tech 体验关孔科技 Bohrium科技是“AI for Science”科研范式的引领者和实践者,致力于利用人工智能和分子模拟算法,结合先进的计算方法来解决问题重大科学问题,为人类文明最基本的生物医学、能源、材料和信息科学与工程研究打造新一代微尺度工业设计与仿真平台。

首创“多尺度建模+机器学习+高性能计算”革命性的科研新范式,推出Bohrium?微尺度科学计算云平台、Hermite?药物计算设计等微尺度工业设计平台。

该基础设施颠覆了现有的研发模式,开创了“计算引导实验和实验优化设计”的新范式,为药物和材料领域带来了突破性的计算模拟和设计工具。

深圳科技是国家高新技术企业、北京市“专精特新”中小企业。

总部位于北京,在上海、深圳、海口等城市设有研发中心。

科研技术团队由中国科学院院士领衔,汇聚了数学、物理、化学、生物、材料、计算机等各领域的百余名优秀青年科学家和工程师,其中公司博士、博士后占35%以上。

核心成员于2017年荣获全球计算机高性能计算领域最高奖项“戈登·贝尔奖”,相关工作入选中国十大科技进步之一、全球十大技术突破之一人工智能领域。