量子实验室发布自建Alchemy数据库,发起腾讯Alchemy大赛,探索算法泛化性能,推动学术与学术进步工业界关注化学中分子的量子性质预测问题及其AI解决方案。
希望本次大赛激发不同领域人才协同创新活力,推动分子科学与应用加速进步,助力整体生态成长和相关产业发展。
竞赛背景 腾讯量子实验室积极探索量子和人工智能技术在化学研究中的应用以及在医药材料等行业的潜在应用。
该领域的一个重要挑战是现有的实验化学数据大多包含大量噪声,这给尚处于早期阶段的AI化学和制药模型的开发和评估带来很大困难。
一种解决方案是利用高精度量子化学计算构建可靠的分子数据库,用于人工智能算法的开发和评估。
但这需要大量的计算资源。
事实上,现有的公共数据库仅提供非常小和特殊分子的性质,这些分子在算法开发中已经变得越来越饱和。
腾讯量子实验室利用腾讯强大的计算能力,打造了自己的分子量子特性数据库——Alchemy:一个包含更大分子和更丰富结构的全新高质量数据库,有望大大加速AI化学和制药领域的发展。
过程。
比赛任务 比赛中,选手可以根据腾讯量子实验室提供的分子训练集,自由使用机器学习算法预测分子的几何、电子、热力学性质等12种性质(列表1),并将结果提交为必需的。
。
最终比赛将根据12个回归任务的平均误差进行评估。
列表 1:分子的 12 个可预测特性 量子力学特性对于预测分子在特定环境中的行为至关重要。
例如,HOMO 和 LUMO 能量以及自由能等属性有助于预测分子化学反应的结果。
参赛者 本次比赛向全社会开放。
国内外高等院校、科研单位、企业人员均可报名参加。
(竞赛主办方、合作伙伴以及接触竞赛主题和数据的工作人员不得参加竞赛。
) 报名方式:访问竞赛官网进行报名,即可报名参加。
比赛流程 l 准备阶段:5月22日—7月31日。
l 评审时间:8月1日至9月30日。
l 结果公布时间:当年12月31日前。
奖项设置 l 一等奖 50 元, l 二等奖 30 元, l 三等奖 20 元, 特别介绍:分子量子特性数据库 - Alchemy 使用量子模拟方法生成分子数据库。
在这一领域已有尝试,但由于计算能力的限制,学术界现有的分子数据库大多由小分子组成(重原子数≤9)。
QM9拥有现有公共数据库中分子数量最多的(列表2),并计算了多达12个分子的量子力学性质(列表1)。
列表 2:Alchemy 与现有分子数据库的比较。
Alchemy数据库是基于QM9的扩展。
它具有更丰富的分子结构(9-12个重原子),包括更多样化的重原子类型(S和Cl)。
而且分子样本选自GDB MedChem分子数据库,具有良好的药物化学性质,具有较高的药物开发潜在价值。
下表总结了比较结果(清单 3)。
维度 QM9Alchemy 重原子数 ≤ 99-12 样本选择 GDB17GDB MedChem 组成元素 C、H、O、N、FC、H、O、N、F、S、Cl 文件格式 xyz(不包括化学键信息) SD(包括化学键信息)债券信息)列表3:Alchemy 和 QM9 的详细比较。