近日,哈佛大学等机构研究人员开发出AI“药神”工具包,助力新冠疫情下加速新药研发.该工具包名为DeepPurpose,不仅包含COVID-19生物识别数据集,还包含56个前沿人工智能模型。作为一个基于PyTorch的工具包,DeepPurpose只需要不到10行代码就可以训练出AI“药神”模型。这些模型不仅可以进行虚拟筛选,还可以发现现有药物的新功能(例如,一种治疗阿尔茨海默病的高血压药物)。让我们来看看它是如何工作的。56个前沿模型,功能齐全DeepPurpose由两个编码器组成,分别用于生成药物分子和蛋白质嵌入(Embedding),也就是深度学习过程中的映射。随后,将两个编码器连接到解码器中,以预测两者的绑定亲和力,如下图所示。在此期间,模型的输入是药物-靶点对,输出是表示药物-靶点对结合活性的分数。当然,DeepPurpose毕竟是一个工具包,所以无论是药物分子还是蛋白质,都有不止一种编码器。对于药物分子,DeepPurpose提供了8个编码器。在这些编码器中,有的用于构建分子结构图,有的用于将绘制的分子转化为二进制数,有的用于获取序列顺序信息等,型号各不相同。对于目标蛋白,DeepPurpose也提供了7个编码器。与药物化学和信息学相比,编码器向目标蛋白的转化更侧重于生物信息。也就是说,DeepPurpose一共可以提供7*8=56个模型,其中有很多非常新颖前沿,值得入手。那么,如何开始使用DeepPurpose?10步之内,上手AI“药神”事实上,要训练一个新的药物研发模型,需要经过以下几个步骤,而每一步只需要一行代码实现。所有这些步骤加起来不超过10个步骤。我们来看看这个模型会经历的步骤:1.数据加载2.指定编码器3.拆分数据集,编码4.生成模型配置文件5.初始化模型6.训练模型7.复用旧药/虚拟screening8,Modelsaving/loading其中,DeepPurpose最关键的两个功能,老药新用和虚拟筛选都可以通过训练实现。可以看到DeepPurpose会自动生成药物的亲和力,并从低到高排序。这样就可以快速缩小高通量分子的筛选范围(如果亲和力为0,真的无所谓)。至于虚拟筛选,它的工作原理类似,生成类似于上图的排名列表。不仅如此,这个AI模型还包括其他几个案例,比如SARS-CoV23CLPro的老药新方法、预训练模型等。此外,DeepPurpose还包括MIT收集的COVID-19开源数据集用于最近备受关注的新冠疫情。对于这些数据,工具包中都有相应的函数,可以直接引用。该工具包的框架基于药物开发的原则。靶蛋白:药物筛选最基本的原则是判断药物分子与靶蛋白(药物作用的靶点)之间的亲和力。为什么是蛋白质?事实上,这是因为某些疾病(如癌症和肿瘤)的病因通常与某种蛋白质有关。如果能找到这种蛋白质并用药物“调节”,这种疾病就可以治愈。△图片来自flickr。例如,细胞之间的通讯依赖于细胞膜上的糖蛋白。某种疾病的病因可能是由于某种细胞上糖蛋白的过度表达。而这种糖蛋白被称为疾病过程中的靶蛋白。然而,要找到可用于调节某个靶蛋白的药物并不容易。毕竟,并不是每一种化合物都能很好地“粘附”到目标蛋白上。在此基础上,研究人员开发了DeepPurpose,这是一个可用于预测药物分子与目标蛋白之间亲和力的工具包。专业术语是药物-靶点相互作用(DTI),简称DTI。选择用人工智能辅助新药研发也是有原因的。人工智能助力新药研发事实上,一家药企研发一款新药大约需要15年甚至更长的时间。在此期间,仅研发阶段就需要2-10年。在研发阶段,目的是筛选出具有治疗潜力的新化合物,也就是说,每一种化合物都需要进行试验,不断试错。这个过程不仅枯燥乏味,而且工作量巨大,需要大量的人力和财力。如果利用人工智能来完成药物筛选的过程,将对加速新药研发起到重要作用。作者简介黄可欣,论文第一作者,获得纽约大学数学与计算机科学双学位,目前在哈佛大学攻读硕士学位,专业为医疗大数据。黄可欣的研究方向主要是图神经网络(GNN)在新药研发和医学文本(如电子病历等)中的应用。此外,傅天凡、LucasGlass、MarinkaZitnik、曹晓和孙继孟也参与了研究工作。传送门论文链接:https://arxiv.org/abs/2004.08919项目链接:https://github.com/kexinhuang12345/DeepPurpose黄可欣主页:https://www.kexinhuang.com/
