分子是维持物质化学稳定性的最小单位。分子研究是药学、材料科学、生物学和化学等许多科学领域的基本问题。分子表征学习(MolecularRepresentationLearning)是近几年很火的一个方向,分为很多流派:Computationalpharmacists说:分子可以表示为一串指纹或者描述符,比如上海医药提出的AttentiveFP,也就是这方面的杰出代表。NLPer说:分子可以表达为SMILES(序列),然后作为自然语言进行处理,比如百度的X-Mol,就是这方面的杰出代表。图神经网络研究人员说:分子可以表示为图(Graph),也就是邻接矩阵,然后用图神经网络进行处理,比如腾讯的GROVER,MIT的DMPNN,CMU的MOLCLR等,在这方面都很突出看待。代表。然而,目前的表征方法仍然存在一些局限性。例如,序列表示缺乏分子的显式结构信息,现有的图神经网络的表达能力还有很多局限性(中科院计算所沉华伟先生对此进行了探讨,参见沉老师的报告“图神经网络的表达能力”)。有趣的是,当我们在高中化学学习分子时,我们看到的是分子的图像。化学家在设计分子时,也会对照分子图像进行观察和思考。一个自然的想法油然而生:“为什么不直接用分子图像来表示分子呢?”如果分子可以直接用图像表示,那么CV(计算机视觉)中的十八般武艺不都可以用来研究分子吗?说干就干,CV的模型那么多,学分子怎么样?等等,还有一个更重要的问题——数据!特别是标记数据!在CV领域,数据标注似乎并不难。对于图像识别或情感分类等CV和NLP的经典问题,一个人平均可以标注800条数据。但在分子领域,分子特性只能通过湿实验和临床实验来评估,因此标记数据非常稀缺。基于此,湖南大学研究人员提出了全球首个分子图像无监督学习框架ImageMol,利用大规模未标记分子图像数据进行无监督预训练,为理解分子特性和药物靶点提供了新的范式,展示了其巨大的优势。分子成像在智能药物发现领域的潜力。该成果以“Accuratepredictionofmolecularpropertiesanddrugtargetsusingaself-supervisedimagerepresentationlearningframework”为题发表在国际顶级期刊《Nature Machine Intelligence》。计算机视觉与分子领域交叉的成功展示了利用计算机视觉技术理解分子特性和药物靶向机制的巨大潜力,并为分子领域的研究提供了新的机遇。论文链接:https://www.nature.com/articles/s42256-022-00557-6.pdfImageMol模型结构ImageMol的整体架构如下图所示,分为三部分:(1)设计一个分子编码器ResNet18(浅蓝色),能够从大约1000万张分子图像中提取潜在特征(a)。(2)考虑分子图像中的化学知识和结构信息,利用五种预训练策略(MG3C、MRD、JPP、MCL、MIR)优化分子编码器(b)的潜在表示。具体来说:①MG3C(Multi-granularitychemicalclustersclassificationmulti-granularitychemicalclusterclassification):结构分类器Structureclassifier(深蓝色)用于预测分子图像中的化学结构信息;②MRD(MolecularrationalitydiscriminationmolecularRationalitydiscriminator):合理性分类器Rationalityclassifier(绿色),用于区分合理分子和不合理分子;③JPP(Jigsawpuzzlepredictionpuzzleprediction):拼图分类器Jigsawclassifier(浅灰色)用于预测分子的合理排列;④MCL(MASK-basedcontrastivelearningbasedonMASK'scontrastivelearning):对比分类器Contrastiveclassifier(深灰色)用于最大化原图和mask图像的相似度;⑤MIR(Molecularimagereconstructionmolecularimagereconstruction):生成器Generator(黄色)用来恢复分子图像的潜在特征,判别器Discriminator(紫色)用来区分真实图像和生成的假分子图像发电机。(3)在下游任务中微调预处理后的分子编码器,以进一步提高模型性能(c)。基准评估作者首先使用8个药物发现基准数据集评估ImageMol的性能,并使用两种最流行的拆分策略(支架拆分和随机支架拆分)来评估ImageMol在所有基准数据集上的性能。在分类任务中,使用受试者工作特征(ROC)曲线和曲线下面积(AreaUnderCurve,AUC)进行评估。从实验结果可以看出,ImageMol可以获得更高的AUC值(图a)。将ImageMol与预测分子图像的经典卷积神经网络框架Chemception进行比较,在HIV和Tox21的检测结果中(图b),ImageMol的AUC值更高。本文进一步评估了ImageMol在通过五种主要代谢酶(CYP1A2、CYP2C9、CYP2C19、CYP2D6和CYP3A4)预测药物代谢方面的性能。图c显示,与三种最先进的基于分子图像的表示模型(Chemception46、ADMET-CNN12和QSAR-CNN47)相比,ImageMol在预测五种主要药物的抑制剂与非抑制剂方面取得了更好的结果-代谢酶。更高的AUC值(范围从0.799到0.893)。本文进一步将ImageMol的性能与三种最先进的分子表示模型进行了比较,如图d、e所示。ImageMol比使用随机骨架划分的基于指纹的模型(如AttentiveFP)、基于序列的模型(如TF_Robust)和基于图的模型(如N-GRAM、GROVER和MPG)具有更好的性能。此外,与传统的基于MACCS的方法和基于FP4的方法相比,ImageMol在CYP1A2、CYP2C9、CYP2C19、CYP2D6和CYP3A4上实现了更高的AUC值(图f)。ImageMol与基于序列的模型(包括RNN_LR、TRFM_LR、RNN_MLP、TRFM_MLP、RNN_RF、TRFM_RF和CHEM-BERT)和基于图的模型(包括MolCLRGIN、MolCLRGCN和GROVER)的对比,如图g,ImageMolinCYP1A2,在CYP2C9、CYP2C19、CYP2D6、CYP3A4上实现了更好的AUC性能。在上述ImageMol与其他先进模型的对比中,可以看出ImageMol的优越性。自COVID-19爆发以来,我们迫切需要制定有效的COVID-19治疗策略。因此,作者在这方面对ImageMol进行了相应的评价。13个SARS-CoV-2靶标的预测ImageMol对今天感兴趣的SARS-CoV-2进行了预测实验,ImageMol在13个SARS-CoV-2生物测定数据集中取得了72.6%到83.7%的准确率高AUC值。Panela揭示了ImageMol识别的潜在特征,它很好地聚集在13个目标或端点活跃和不活跃的抗SARS-CoV-2上,AUC值高于其他模型Jure的GNN超过12%较高,反映模型精度高,泛化能力强。鉴定抗SARS-CoV-2抑制剂是药物分子研究最直接的实验,使用ImageMol直接鉴定抑制剂分子!通过ImageMol框架下3CL蛋白酶抑制剂和非抑制剂数据集的分子图像表示(已被证明是治疗COVID-19的治疗发展的有希望的靶点),本研究发现3CL抑制剂和非抑制剂-t-SNE图中的抑制剂分离良好,如下图b所示。此外,ImageMol识别出16种已知3CL蛋白酶抑制剂中的10种,并将这10种药物可视化到图中的嵌入空间(62.5%的成功率),表明在抗SARS-CoV-2药物发现方面具有很高的泛化能力。当使用HEY293分析预测抗SARS-CoV-2的再利用药物时,ImageMol成功预测了70种药物中的42种(成功率60%),表明ImageMol在推断HEY293分析中的潜在候选药物方面也很有效。具有很高的推广度。下面的图c显示了ImageMol在DrugBank数据集上发现的作为3CL潜在抑制剂的药物。图d显示了ImageMol发现的3CL抑制剂的分子结构。注意力可视化ImageMol可以从分子图像表示中获得化学信息的先验知识,包括=O键、-OH键、-NH3键和苯环。面板b和c是ImageMol的Grad-CAM可视化的12个示例分子。这表明ImageMol准确地捕获了全局(b)和局部(c)结构信息,这些结果使研究人员能够直观地了解分子结构如何影响属性和目标。
