当前位置: 首页 > 科技观察

医学探索中的人工智能_0

时间:2023-03-14 00:00:22 科技观察

翻译|崔浩审稿人|SunShujuan开篇文章探讨了TypeDB如何帮助科学家实现医学的下一个突破,并通过具有启发性的代码示例和视觉效果展示了结果。生物技术领域的大部分炒作都集中在革命性的药物发现上。毕竟,过去十年是该领域的黄金时代。与前十年相比,2012年至2021年期间批准的新药数量增加了73%,比前十年增加了25%。这些药物包括癌症免疫疗法、基因疗法,当然还有Covid疫苗。从这些方面可以看出,医药行业做的不错。但也有越来越令人担忧的趋势。药物发现的成本和风险正变得令人望而却步。截至目前,将一种新药推向市场的平均成本为10亿至30亿美元,平均时间为12至18年。与此同时,一种新药的平均价格已从2007年的2,000美元飙升至2021年的180,000美元。这就是为什么许多人寄希望于人工智能(AI),例如统计机器学习,以帮助加速新药的开发,从早期目标识别试验。尽管已经使用各种机器学习算法识别了一些化合物,但这些化合物仍处于早期发现或临床前开发阶段。人工智能彻底改变药物发现的承诺仍然是一个令人兴奋但尚未实现的承诺。什么是人工智能?要实现这一承诺,了解人工智能的真正含义至关重要。近年来,人工智能这个词已经成为一个相当流行的词,没有太多的技术含量。那么,什么是真正的人工智能?人工智能作为一个学术领域,自1950年代以来就已经存在,并且随着时间的推移,分支成代表不同学习方式的各种类型。PedroDominguez教授在《算法大师》中描述了这些类型(他称之为“部落”):连接主义者、象征主义者、进化论者、贝叶斯主义者和模拟激进主义者。在过去的十年中,贝叶斯学派和联结学派受到了广泛关注,而符号学派则不同。象征主义根据逻辑推理的规则集来创建现实世界的表示。符号人工智能系统没有其他类型的人工智能所享有的大肆宣传,但它们拥有其他类型所缺乏的独特而重要的能力:自动推理和知识表示。生物医学知识的表示事实上,知识表示问题是药物发现中最大的问题之一。现有的数据库软件,例如关系数据库或图形数据库,难以准确地表示和理解生物学的复杂性。药物发现制定的问题是为不同的生物医学数据源(如Uniprot或Disgenet)构建统一模型的一个很好的例子。在数据库级别,这意味着创建数据模型(有些人可能称之为本体论)来描述无数复杂的实体和关系,例如蛋白质、基因、药物、疾病、相互作用等之间的实体和关系。这就是TypeDB,一个开放的-源数据库软件,旨在实现——使开发人员能够创建高度复杂领域的真实表示,计算机可以使用这些表示来获得洞察力。TypeDB的类型系统基于实体关系的概念,实体关系表示存储在TypeDB中的数据。这使得它足以捕获复杂的生物医学领域知识(通过类型推理、嵌套关系、超级关系、规则推理等),使科学家能够获得洞察力并加快药物开发时间。一家大型制药公司的例子说明了这一点,该公司努力使用语义Web标准为疾病网络建模超过五年,但在迁移到TypeDB后仅三周内就成功了。例如,用TypeQL(TypeDB的查询语言)编写的描述蛋白质、基因和疾病的生物医学模型如下所示:定义蛋白质子实体,拥有uniprot-id,播放protein-disease-association:protein,播放encode:encoded-蛋白质;gene子实体,拥有entrez-id,播放gene-disease-association:gene,播放encode:encoding-gene;疾病子实体,拥有疾病名称,扮演基因-疾病关联:疾病,扮演蛋白质-疾病关联:疾病;编码子关系,关联编码蛋白质,关联编码基因;蛋白质疾病关联子关系,关联蛋白质,与疾病相关;基因-疾病相关子关系,与基因相关,与疾病相关;id子属性,值字符串;entrez-id子属性,值字符串;疾病名称子属性,值字符串;对于完整的工作示例,可以在Github上找到开源生物医学知识图谱。这是从各种著名的生物医学资源(如Uniprot、Disgenet、Reactome等)加载数据。使用存储在TypeDB中的数据,您可以运行查询来提出以下问题:哪些药物与SARS病毒中涉及的基因相互作用?要回答这个问题,我们可以在TypeQL中使用以下查询。匹配$virusisa病毒,病毒名称为“SARS”;$gene是一个基因;$drug是一种药物;($virus,$gene)是一个基因-病毒关联;($gene,$drug)是一种药物基因相互作用;运行它会导致TypeDB返回符合查询条件的数据。并且可以在TypeDBStudio中可视化,如下图,这将有助于了解哪些相关药物可能值得进一步研究。通过自动推理,TypeDB还可以推断出数据库中不存在的知识。这是通过编写构成TypeDB模式一部分的规则来完成的。例如,如果基因编码的蛋白质与某种疾病有关,则规则可以推断出基因与疾病之间的关联。这样的规则可以写成:ruleinference-example:when{(encoding-gene:$gene,encoded-protein:$protein)isaencode;(protein:$protein,disease:$disease)是一种蛋白质-疾病关联;}then{(gene:$gene,disease:$disease)isagene-disease-association;};然后,如果我们要插入以下数据:TypeDB将能够推断出基因与疾病之间的关联,即使它没有插入到数据库中间。在这种情况下,将推断出以下关系基因-疾病-关联。match$gene是一个基因,其基因ID为“2”;$disease是一种疾病,有疾病名称$dn;;(gene:$gene,disease:$disease)是一种基因-疾病关联;通过机器学习加速目标用TypeDB探索生物医学数据(符号)的表示,再加上机器学习的上下文知识,可以让整个系统更加强大,从而增强洞察力。例如,可以通过药物发现管道发现有前途的目标。找到有希望的目标的方法是使用链接预测算法。TypeDB的规则引擎允许执行通过推理学习事实的ML模型。这意味着从学习平面的、上下文无关的数据转向学习推理的、上下文的知识。好处之一是,基于领域的逻辑规则,预测可以泛化到训练数据的范围之外,并减少所需的训练数据量。这种药物发现的工作流程如下:1.查询TypeDB,创建上下文知识的子图,并利用TypeDB的完整表达能力。2.将子图转换为嵌入并将其嵌入到图学习算法中。3.预测结果(例如,作为基因-疾病关联之间的概率分数)可以插入TypeDB并用于验证/确定某些目标的优先级。有了数据库中的这些预测,我们可以提出更高层次的问题,这些问题利用数据库中更广泛的背景知识来利用这些预测。例如:黑色素瘤最有可能靶向的基因是什么?这些基因编码的蛋白质如何在黑色素细胞中表达?用TypeQL编写,这个问题看起来如下:match$geneisagene,hasgene-id$gene-id;$protein是一种蛋白质;$cell是一个细胞,具有细胞类型“黑色素细胞”;$disease是一种疾病,疾病名称为“黑色素瘤”;($gene,$protein)isa编码;($protein,$cell)是一个表达式;($gene,$disease)是一种基因-疾病关联,有概率$p;获取$gene-id;排序描述$p;这个查询的结果将是一个按概率得分排序的基因列表(正如学习者预测的那样):{$gid"TOPGENE"isagene-id;}{$gid"BESTGENE"isagene-id;}{$gid"OTHERTARGET"isagene-id;}...然后我们可以进一步研究这些基因,例如通过了解每个基因的生物学背景。假设我们想知道TOPGENE基因编码的蛋白质所在的组织。我们可以编写以下查询。匹配$gene是一个基因,有gene-id$gene-id;$gene-id"TOPGENE";$protein是一种蛋白质;$tissue是一个组织,名称为$name;$rel1($gene,$protein);$rel2($protein,$tissue);结果在TypeDBStudio中可视化,显示了该基因编码的蛋白质在结肠、心脏和肝脏中的表达:结论世界迫切需要创造解决方案来治疗毁灭性疾病,希望通过人工智能创新建立一个更健康的世界,让每一种疾病可以治愈。人工智能在药物发现中的作用仍处于起步阶段,但如果实现,它将在生物学领域掀起新一波创新浪潮,让21世纪真正属于自己。在这篇文章中,我们研究了TypeDB如何实现生物医学知识的符号表示,以及它如何改进ML以促进药物发现。将人工智能应用于药物发现的科学家使用TypeDB来分析疾病网络,更好地理解生物医学研究的复杂性,并发现新的突破性治疗方法。译者介绍崔浩,社区编辑,资深架构师。他拥有18年的软件开发和架构经验,以及10年的分布式架构经验。原标题:药物发现中的人工智能,作者:TomásSabat