当前位置: 首页 > 科技观察

给几句话就能生成分子,看见分子也能生成描述,神秘的Google X把多模态AI做成了黑科技

时间:2023-03-19 19:16:36 科技观察

给几个词就可以生成分子,看到分子也可以生成描述。神秘的GoogleX让多模态AI成为黑科技,AI可以自动生成所需药物的精确结构。这听起来像是科幻小说,但随着自然语言和分子生物学交叉领域的进步,未来很可能成为现实。传统上,药物创造通常依赖于分子结构的人工设计和构建,将一种新药推向市场可能需要超过10亿美元的成本和十年以上的时间(Gaudelet等人,2021年)。最近,人们对使用深度学习工具改进计算机药物设计产生了相当大的兴趣,该领域通常被称为化学信息学(Rifaioglu等人,2018年)。然而,这些实验中的大多数仍然只关注分子及其低级属性,例如logP、辛醇/水分配系数等。未来我们需要对分子设计进行更高级别的控制,这很容易通过自然语言实现.伊利诺伊大学香槟分校和GoogleX的研究人员通过提出两项新任务来实现分子到自然语言翻译的研究目标:1)为分子生成描述;2)在文本指导下从头开始生成分子。论文地址:http://blender.cs.illinois.edu/paper/molt5.pdf如下图,text-guidedmoleculegeneration的任务是创建一个匹配给定自然语言描述的分子,它将帮助加速多个科学领域的研究。在多模态模型领域,自然语言处理和计算机视觉(V+L)的交叉得到了广泛的研究。通过自然语言实现对图像的语义级控制已经取得了一些进展,人们对多模态数据和模型的兴趣也越来越大。本研究提出的分子语言任务与V+L任务有一些相似之处,但也有几个特殊的困难:1)为分子创建注释需要大量的专业知识,2)因此,很难获得大量的ofmolecule-描述,3)同一个分子可以有很多功能,需要很多不同的描述方式,这导致4)现有的评估指标(如BLEU)不能充分评估这些任务。为了解决数据稀缺的问题,本研究提出了一种新的自监督学习框架MolT5(MolecularT5),其灵感来自于预训练多语言模型的最新进展(Devlinetal.,2019;Liuetal.,2020)。MolT5首先使用简单的去噪目标在大量未标记的自然语言文本和分子串上预训练模型。之后,预训练模型在一组有限的黄金标准注释上进行微调。此外,为了充分评估分子描述或生成模型,本研究提出了一个名为Text2Mol的新指标(Edwards等人,2021)。Text2Mol重新调整了检索模型的用途,以分别评估实际分子/描述与生成的描述/分子之间的相似性。多模式文本-分子表示模型MolT5研究人员可以从Internet上抓取大量自然语言文本。例如,Raffel等人。(2019)构建了一个基于CommonCrawl的数据集,其中包含超过700GB的相对干净的自然英语文本。另一方面,ZINC-15等公共数据库也提供了超过10亿个分子的数据集。受近期大规模预训练进展的启发,本研究提出了一种新的自监督学习框架MolT5(MolecularT5),它可以利用大量未标记的自然语言文本和分子串。图3是MolT5的架构图。该研究首先使用T5.1.1(T5的改进版本)的公共检查点之一初始化编码器-解码器Transformer模型。之后,他们使用“替换损坏的跨度”目标对模型进行了预训练。具体来说,在每个预训练步骤中,该研究对包含自然语言序列和SMILES序列的小批量进行采样。对于每个序列,研究者会随机选择序列中的一些词进行修饰。每个连续跨度中的损坏令牌将替换为哨兵令牌(在图3中显示为[X]和[Y])。下一个任务是预测退出跨度。分子(例如,由SMILES字符串表示)可以被认为是一种具有非常独特语法的语言。直观地说,本研究的预训练阶段本质上是在来自两种不同语言的两个单语语料库上训练语言模型,两个语料库之间没有明确对齐。这种方法类似于mBERT和mBART等多语言语言模型的预训练方式。由于mBERT等模型展示了出色的跨语言能力,该研究还预计使用MolT5预训练的模型可用于文本到分子的翻译任务。预训练后,预训练模型可以针对分子字幕或生成进行微调(如图3下半部分所示)。在分子生成中,输入是描述,输出是目标分子的SMILES表示。另一方面,在分子描述中,输入是分子的SMILES字符串,输出是描述输入分子的文本。实验结果下表1显示了分子描述测试结果。研究发现,T5或MolT5在生成逼真的语言来描述大型预训练模型中的分子方面比Transformer或RNN好得多。下面的图5显示了不同模型输出的几个示例。不同模型的生成结果示例(摘录)。RNN模型在分子生成方面普遍优于Transformer模型,大型预训练模型在分子描述任务方面优于RNN和Transformer模型。众所周知,缩放模型大小和预训练数据会带来显着的性能提升,但这项研究的结果仍然令人惊讶。例如,仅在文本数据上进行预训练的默认T5模型能够生成比RNN更接近真实情况的分子,并且通常是有效的。这种趋势随着语言模型规模的扩大而持续存在,因为具有770M参数的T5-large优于具有60M参数的专用预训练MolT5-small。尽管如此,在MolT5中进行的预训练略微改善了一些分子生成结果,尤其是在效率方面的大幅提升。下面的图4显示了模型的结果,按照输入描述进行编号。实验发现,与T5相比,MolT5能够更好地理解操纵分子的指令。演示不同模型生成的分子示例。