本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。百度新研究发表在Nature子刊上。科技公司登上学术界顶级期刊的情况并不少见。但这一次有点不同。研究领域与生物学领域直接相关。接收该论文的期刊NatureMachineIntelligence(NMI)影响因子为16.649。除了专业性的保证,该研究的实验结果也超越了麻省理工斯坦福。更重要的是,它不同于后者大部分的“产学研”模式。百度其实是自主创建的——作者都是百度生物计算团队的螺旋桨PaddleHelix。嗯,还是可以复现的,完整代码已经在GitHub上开源了(地址可在文末获取)。据研究人员介绍,一些相关项目已经实现商业化。让我们看看它是什么样的研究。AI完全理解小分子的3D结构。百度重点研究的是小分子化合物性质的预测。简单来说,就是通过小分子的结构来预测小分子的性质,帮助药物开发的早期探索,从而解决该领域成本高、周期长、成功率低的问题。小分子药物的结构具有良好的空间分散性,其化学性质更有利于药物制剂化。因此,与大分子药物(蛋白质、核酸等)相比,它们在药物开发上更具优势。市场上的大多数药物也是小分子药物。但即使拥有先天优势,其面临的特殊挑战也不小。最大的挑战是小分子的筛选空间太大。Nature早先的一项研究表明,小分子药物开发和筛选的数量是10的60次方。什么概念?作者将其描述为“超过太阳系中原子的数量”。要在如此庞大的“小分子宇宙”中寻找合适的候选药物,高效准确的化合物表征起着关键作用。基于这样的背景,研究团队提出了一种几何增强的分子表征方法,简称GEM。该方法主要由两部分组成:基于空间结构的图神经网络GNN,以及多几何层次的自监督学习。不难看出,这项研究的亮点在于空间和几何。据介绍,这是业内首次将空间结构引入复合造型。之所以如此强调,与他们要解决的问题不无关系,就是让AI能够理解小分子的3D结构。究其原因,需要从现有的表示方法说起。目前主要有两种表示方法:基于序列的一维表示和基于图的表示。一种以字符串为输入,使用RNN、Transformer等序列模型来学习分子表示,但存在一些明显的局限性,如字符串语法难以理解,文本序列中相邻的两个原子可能相距较远;characters字符串中的一个小变化会导致分子结构的大变化。另一个和今天的研究有关——GNN建模,以一个图作为输入,每个原子是一个节点,每个化学键是一条边。嗯,就像一本化学书。然而,大多数研究只停留在分子的二维信息上,而忽略了三维空间结构。这不难理解,毕竟要准确获取分子的三维结构信息并不容易。如果选择的描述三维结构的参数不理想,其性能可能不如上述两种表征方法,同时也会面临鲁棒性不足、预测性能不理想等问题。但即便如此,三维结构信息仍然至关重要,因为它往往决定了分子理化性质和生物活性的差异。最典型的例子就是高中学的异构体。以二氯乙烷为例,它具有顺反结构。由于几何结构不同,两者的水溶性不同。与顺铂和反铂(二氯化二胺)一样,顺铂也是一种流行的抗癌药物;但反铂有毒,没有抗癌活性。既然如此,让我们看看这项研究是如何解决的。先来看图神经网络,这次研究人员提出了一个GeoGNN。每个分子的输入由两个同时模拟原子、键和键角的影响的图组成。第一种图,即二维结构图,也叫原子化学键图,仍然以原子为节点,以键为边。第二张图,键角图,将键视为节点,将键角视为边。GeoGNN通过多次迭代学习原子和键的表示向量。为了连接两个图,化学键在每次迭代中充当图G和图H之间的桥梁以进行信息交换。最后,通过汇集原子表征得到分子表征,可用于预测化合物的性质。为了更好地学习分子空间知识,研究团队除了以几何信息作为输入外,还进一步设计了多项自监督学习任务。例如,预测化学键的长度、化学键的键角以及两个原子之间的距离。其中,键长和键角描述了化合物的局部结构,两个原子之间的距离更关注化合物的全局结构。对于局部结构,随机选择某个原子中心(图中N)的子图进行覆盖,预测化学键之间的键长和键角。对于全局结构,预测原子距离矩阵中的元素。在预训练过程中,团队从公共数据集Zinc1522中提取了2000万个未标记分子来训练GeoGNN。90%的分子用于训练,其余用于测试。最终结果表明,在目前公认的化合物性质预测数据集MoleculeNet21的15个基准数据集中,与现有方法相比,获得了14个SOTA结果。其中,对于毒性相关的数据集tox21、toxcast、HIV病毒数据集,GEM的表现优于其他模型,如腾讯的GROVER、斯坦福的PretrainGNN、MIT的D-MPNN。总体而言,百度的GEM模型相比当前方法在回归任务上有8.8%的提升,在分类任务上相对提升了4.7%。可以看出,回归数据集的结果比分类数据集有更大的改进。团队猜测是因为回归数据集的重点是预测与分子几何高度相关的量子化学和物理化学性质。此外,该团队还研究了在没有预训练的情况下GeoGNN在回归数据集上的表现会受到怎样的影响。将结果与现有的GNN架构进行了比较,包括常用的GNN架构、包含3D分子几何的架构和分子表示架构。与之前最好成绩相比,整体提升7.9%。此外,对自监督学习方法的消融实验也证明了基于空间结构的自监督学习方法的有效性。该项目已在GitHub上开源。据介绍,除了出现在学术期刊上,研究团队透露,该研究已在药物研发领域实现商业化,并应用于合作伙伴的早期药物筛选管线。未来,该技术将具有更多可预见的应用价值,如化合物成药性预测、小分子药物筛选、药物组合等特定场景。再扩大一点,也许在蛋白质、核酸等领域,也可以构建基于大分子的表征模型,有助于更多的药物研发。事实上,此次百度亮相Nature子刊,带来了计算生物学领域的新进展。不合理,但在意料之中。大多数人不知道的是,百度对计算生物学的探索已经开始。曾在GNN顶级竞赛中超越DeepMind早在2018年,百度就正式启动了计算生物学方向的研究。著名的RNA二级结构开源算法LinearFold,将新冠预测时间从原来的55分钟加速到27秒(近120倍),就是百度的研究成果之一。2020年12月,百度正式整合自研的一系列生物计算相关技术,发布PaddleHelix。这是一个包含多种“AI+计算生物”开源工具的生物计算平台。基于百度飞桨框架开发,可用于药物研发、疫苗设计、精准医疗等领域。而这项研究来自于百度螺旋桨团队。在发表这项研究之前,Propeller团队已经在包括KDD、NeurIPS、IEEEBIBM等顶级会议上发表了多项“AI+生物”的研究成果。例如一项利用多任务学习训练ML模型进行虚拟筛查的研究drugs被去年年底生物信息学和生物医学顶级会议IEEEBIBM2021录取;此外,还有包括蛋白质和mRNA在内的多项研究成果,例如基于蛋白质序列预测蛋白质-蛋白质相互作用的多模态预训练模型入选MLCB的Spotlight;用图神经网络预测分子特性的相关模型在全球顶级会议成绩中名列前茅。比如KDDCUP和OGB(OpenGraphBenchmark)在去年6月联合举办了第一届图神经网络竞赛OGB-LSC。DeepMind、微软、蚂蚁金服等全球500多所知名高校和机构参与。其中,OGB是图神经网络的通用性能评估基准数据集,被称为“图神经网络的ImageNet”;KDDCUP是目前数据挖掘领域水平最高的国际顶级赛事。本次大赛分为大规模节点分类、大规模图关系预测和化学分子图性质预测三场比赛。在化学分子图谱性质预测比赛中,百度螺旋桨生物计算团队获得亚军。冠军来自MSRA和北京大学的联合团队,第三名是DeepMind。这只是GNN三大竞赛中与生物计算相关的一项。在同一赛事的另外两场图神经网络比赛中,在节点分类和图关系预测方面,Propeller生物计算平台背后的百度飞桨框架获得了两连冠,也超越了DeepMind等队伍。这些模式和研究都不是“纸上谈兵”,很多成果已经落地。例如,百度与斯瑞微生物合作,对LinearDesign的mRNA疫苗序列设计算法进行了生物学实验,证明该模型的关键指标超过了基准序列20倍,在疫苗研发中确实具有较高的实用价值;随后百度还与制药公司赛诺菲签署了协议,使用LinearDesign优化mRNA疫苗的设计和开发。至于早先研究的LinearFold开源算法,已经被数百家公司用于疫苗设计研究。种种迹象表明,百度进军生物计算领域并非空谈。相反,这项发表在Nature子刊上的研究,正是其多年来在生物计算领域取得的成就的证明。数据爆炸下的生物科技百度走的生物科技之路并不孤单。放眼整个计算生物学更大的领域,不仅是百度,近年来国内外的科技公司,包括腾讯、阿里、英特尔、三星、谷歌母公司Alphabet等,其实都在加大布局。这也与当前科技的增长趋势有关——生物领域的发展恰好赶上了数据爆炸的时代和人工智能对以往研究方法的改造。从技术应用来看,典型代表之一就是AI+新药研发。数据驱动的深度学习技术给传统的新药研发带来了巨大的潜力。制药领域有一个著名的反摩尔定律:每9年,用于生产新药的10亿美元投入市场就会减少一半。更常见的是,首创药物(First-in-Class)占获批新药总数的不到一半。相比之下,使用AI在使用ADMET进行药物性质预测、药物筛选等环节可以节省大量的人力物力。辉瑞、阿斯利康等传统药企也开始加大AI投入。研发投入,或寻求与人工智能公司合作。AI+新药的研发只是生物技术大爆发中技术应用的一小部分。放眼整个行业,科技对生物领域本身的推动正在成为不可阻挡的趋势之一。量子位智库此前发布的“2021年十大前沿技术趋势”中,生物相关技术突破占比接近一半:除了利用AI助力新药研发,还有CRISPR基因编辑和创脑机接口应用。,AlphaFold2,一个使用人工智能预测蛋白质结构的模型。从行业的角度来看,像百度这样的人工智能公司大量投入研究,这反过来说明了人工智能给生物技术领域带来的潜力和价值。2018年以来,百度一直在研发RNA二级结构预测等算法。后来,李彦宏创立了百图生物科技有限公司,随后与传统药企赛诺菲合作,进行算法研究;李彦宏也不止一次强调过。我们看好这个领域:依托生物计算引擎,可以有效利用海量生物数据,把药物发现的“大海捞针”变成“照图找线索”。不仅是百度。SpringRiverPlumbing始终是科技公司的先知。不久前,谷歌母公司Alphabet宣布成立新公司IsomorphicLaboratories,研究如何在AI+新药研发方向将AlphaFold2的能力商业化。OpenAI也在尝试用AI模型来训练能够诊断疾病和预测复杂蛋白质结构的复杂系统……AI+生物技术正在成为行业新的“共识”。21世纪是生物学的世纪。你诚实还是不诚实?论文链接:https://www.nature.com/articles/s42256-021-00438-4GitHub链接:https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/pretrained_compound/ChemRL/GEM
