人类正在进入人工智能时代。现代深度学习方法也将改变化学,这需要大量定性数据来训练神经网络。好消息是化学数据“保存完好”。即使一种化合物最初是在100年前合成的,有关其结构、性质和合成方式的信息在今天仍然具有现实意义。坏消息是没有公认的标准方法来表示化学式。化学家经常使用一些技巧来用速记符号表示熟悉的化学基团。但是个别化学家是不同的,而且常规会发生变化。对于计算机算法来说,这个任务似乎是无法克服的。来自Skoltech初创公司Syntelly和莫斯科国立罗蒙诺索夫大学的研究人员开发了一种基于Transformer的人工神经网络,可以将有机结构的图像转换为分子结构。为了训练这个网络,开发了一个综合数据生成器,可以随机模拟各种绘图样式、功能组、功能组占位符(R基)和视觉污染。该研究题为“Image2SMILES:Transformer-BasedMolecularOpticalRecognitionEngine”,于2022年1月11日发表在《Chemistry–Methods》。化学结构识别面临挑战多年来,大量的化学数据已在文献中发表。不幸的是,在计算机时代之前,这种有价值的数据只能在纸质资源中获得。当前的挑战是从这些来源中提取和挖掘这些数据。深度神经网络的广泛发展显着提高了光学识别任务的性能。然而,图或弱结构信息识别一直是一个具有挑战性的问题。一个常见的例子是化学结构的识别。首先,化学化合物的绘图风格(原子标签字体、键划线风格等)在出版商之间没有完全标准化。其次,化合物通常被绘制为马库什结构:可以描述许多化合物的支架,并且没有关于马库什结构的通用指南,导致了各种各样的马库什表示。此外,在某些情况下,化学论文的作者使用艺术风格来表示化学结构。以艺术风格描绘的分子示例。总而言之,识别化学结构和分子模板是一个具有挑战性的问题,我们认为只能通过基于人工智能的工具来解决。研究思路&方法Transformer是谷歌团队最初提出的用于神经翻译的架构。然而,这种架构及其修改在许多其他任务中表现出了出色的性能,例如:在化学中,Transformer应用于有机反应结果的预测、SMILES和IUPAC名称之间的转换。可以看出,基于Transformer的架构的性能通常高于基于RNN的方法。这一观察结果促使研究人员实施了一种基于Transformer的引擎,用于光学识别化学结构。数据是机器学习的关键。然而,据我们所知,在化学文章中没有带有注释对象的开放访问数据集。获得大型数据集的唯一方法是构建数据的生成模型。所提出方法的新颖之处在于高度关注数据生成方案,并且不仅能够处理有机结构而且能够处理分子模板,因此该方法可用于真实数据。在这项工作中,为了训练这个网络,开发了一个综合数据生成器,它随机模拟各种绘图样式、功能组、功能组占位符(R基)和视觉污染。PubChem数据库包含大约1亿个分子。选择RDKit作为自动绘图工具。官能团和R基团在大多数化学文献中,作者绘制带有官能团和R基团取代基的分子。为了生成具有此类取代基的分子,研究人员创建了一个包含100多个常见官能团的列表。将每个小组描述为一个SMARTS模板。它的增强算法随机替换分子中的官能团以生成增强数据集。需要注意的是,有些功能组是嵌套的。典型的例子是:甲基(-Me)和甲氧基(-OMe)基团。研究人员设计了一种解析方法来防止嵌套组重叠。生成的带有官能团和R基团的分子的示例。研究人员实施了一种方法来生成具有环中R基团可变位置的图像。具有可变位置的R碱基示例。如果环的取代基不超过两个,R基团(R、R1、R2、R'、R'')以20%的概率绘制在可变位置,但算法对每个环进行一次取代,一个分子取代最多二。添加了一个虚拟键,使RDKit将组放在环键前面,然后使用SVG后处理将两个键替换为一条线。下面的例子给出了直观的解释。R碱基呈现在可变位置。功能组SMILES不能表示标准SMILES中的分子模板,这里设计了一种修改后的文法,命名为FG-SMILES。这是标准SMILES的扩展,其中取代基或R基团可以写成单个假原子。如果取代基是官能团,FG-SMILES可以通过替换相应的假原子直接转化为SMILES。一个例子:微笑:Cc1cc(C)c(-c2ccccc2)c(-c2ccc([N+](=O)[O-])cc2)c1FG-微笑:[Me]c1cc([Me])c(-[Ph])c(-c2ccc([NO2])cc2)c1此外,FG-SMILES符号允许描述变量R碱基位置。添加v符号以表示芳族系统中的可变R基团。图像增强当我们的模型在真实环境中运行时,它会从光学扫描中裁剪出一个区域作为输入。然而,分子图像经常被其他细节污染,实验表明,即使图像中的小污染也会破坏预测。为了解决这个问题,研究人员提出了一种模拟典型污染的污染增强算法。下图给出了一些污点增强算法的结果示例。由污染增强算法生成的示例分子。此外,研究人员还使用了在“albumentations”库中实施的标准计算机视觉增强功能。模型架构Img2SMILES模型的输入形状为384x384。研究人员使用ResNet-50作为CNN块。ResNet模块的输出形状为2048x12x12。Transformer解码器的其他参数取自经典架构。Img2SMILES模型架构图。研究人员证明,基于Transformer的架构可以从发电机中收集化学信息。这意味着有了Transformer,就可以完全专注于数据模拟,建立一个好的识别模型。光学识别引擎的网络演示可在Syntelly平台上在线获得,从数据集生成的代码可在GitHub上免费获得。“我们的研究是化学结构光学识别范式转变的一个很好的例子。虽然以前的研究主要集中在分子结构识别本身,但现在我们拥有Transformers和类似网络的独特能力,我们可以转而专注于创造一个模仿大多数现有类型的分子模板描述的人工样本生成器。我们的算法结合了分子、功能组、字体、样式,甚至印刷缺陷,从而引入了一些额外的分子、抽象片段等。即使是化学家也很难判断是否该分子直接来自真实的纸张或发电机,”该研究的首席研究员兼初创公司Syntelly的首席执行官SergeySosnin说。该研究的作者希望,他们的方法将构成向能够“阅读”和“理解”研究论文的人工智能系统迈出的重要一步,达到高素质化学家的水平。数据生成器GitHub地址:https://github.com/syntelly/img2smiles论文链接:https://chemistry-europe.onlinelibrary.wiley.com/doi/10.1002/cmtd.202100069
