当前位置: 首页 > 科技观察

人工智能与合成生物学“联姻”的五大挑战:技术、数据、算法、评价和社会学

时间:2023-03-21 12:43:15 科技观察

在过去的二十年里,生物学发生了翻天覆地的变化,基于生物系统的工程成为可能。使我们的细胞能够对遗传密码(DNA)进行排序的基因组革命是这一巨大变化的主要驱动力。基因组革命带来的最新发现之一是使用CRISPR在体内精确编辑DNA的能力。遗传密码的高级表现,例如蛋白质合成,被称为“表型”。高通量表型数据与DNA的精确编辑相结合,将基础代码的变化与外部表型联系起来。图例:Wacomka图例:该图反映了细胞遗传密码(DNA)的高级表示将对食物、能源、气候、医药和材料……世界上的一切产生变革性影响。图片说明:合成生物学可能影响世界各个领域合成生物学给世界带来了不牺牲猪就可以获得猪胰岛素的能力(在基因工程的前一阶段就可以做到)、合成皮革、用丝绸制成的rootCoats不是蜘蛛、抗疟药和抗癌药、尝起来像肉的无肉汉堡、可再生生物燃料、不含啤酒花的啤酒花味啤酒、已灭绝的花的香味、化妆品、人造胶原蛋白、消除携带登革热的蚊子的基因。许多人认为这只是冰山一角,因为设计生物的能力为改变世界开辟了无限可能,而且这一领域的公共和私人投资水平不断提高。图例:学术(a)和商业(b)领域的显着增长为人工智能在合成生物学领域的应用提供了丰富的信息、数据和环境资源。此外,进入第三次AI浪潮后,AI着重于将环境融入模型,对合成生物学的影响潜力大大增加。众所周知,生物体的基因型与其说是其表型的蓝图,不如说是一个复杂、相互关联的动态系统的初始条件。生物学家花了数十年时间构建和管理大量属性,包括描述这个复杂动态系统的调节、关联、变化率和功能。基因网络、已知功能关联、蛋白质-蛋白质相互作用、蛋白质-代谢物相互作用以及转录、翻译和相互作用的知识驱动动态模型等其他资源为AI模型提供了丰富的资源。模型的可解释性对于揭示新的设计原则也至关重要。这些模型使生物学家能够解决有关生物系统的更复杂问题,并构建全面、可解释的模型以加速发现和研究。从合成生物学出版物的数量和合成生物学的商业机会中可以清楚地看到该领域知识和资源的增长。2AI及其对合成生物学的影响与其在合成生物学领域的潜力相比,AI在合成生物学领域的影响一直有限。我们已经看到了AI的成功应用,但它仍然仅限于特定的数据集和研究问题。人工智能在该领域当前面临的挑战仍然是它对更广泛的应用程序和其他数据集的通用性。数据挖掘、统计和机械建模目前是计算生物学和生物信息学领域的主要驱动力,但这些技术与人工智能/机器学习之间的界限往往很模糊。例如,聚类是一种数据挖掘技术,可以识别基因表达数据中的模式和结构,从而表明工程修饰是否会导致细胞产生毒性结果。这些聚类技术也可以用作无监督学习模型,以在未标记的数据集中查找结构。这些经典技术和正在开发的新AI/ML(机器学习)方法将在未来的合成生物学领域发挥更大的作用和影响,因为届时人们将习惯于更大的数据集。转录组数据量每7个月翻一番,蛋白质组学和代谢组学的高通量工作流程越来越多。此外,用于实验室工作的微流控芯片的逐步自动化和小型化预示着未来数据处理和分析将成倍增加合成生物学的生产力。DARPA的协作发现与设计(SD2,2018-2021)计划侧重于构建人工智能模型,旨在弥合人工智能与合成生物学需求之间的差距。这在该领域采用SoTA技术的一些公司(如Amyris、Zymergen或GinkgoBioworks)中也很明显。AI和合成生物学在将现有AI/ML应用于现有数据集等领域有所重叠;生成新的数据集(例如即将推出的NIHBridge2AI);并创建新的AI/ML技术来应用新的或现有的数据。SD2虽然对最后一项有所贡献,但仍有一定潜力,未来任重而道远。人工智能可以帮助合成生物学克服预测生物工程方法对生物主体和环境的影响这一重大挑战。由于生物工程的结果无法预测,合成生物学中细胞工程的目标(即逆向设计)只能通过大量的试验和错误来实现。人工智能提供了一个机会,可以使用公开可用的实验数据来预测对生物制剂和环境的影响。设计用于细胞编程的遗传结构。合成生物学领域的大部分研究都集中在基因结构/基因电路的工程上,这与设计电子电路所面临的挑战截然不同。结合已知的生物物理学、机器学习和强化学习模型以有效预测结构对受试者的影响,反之亦然的人工智能技术已经非常强大,但仍有改进的空间。在机器辅助基因电路设计方面,各种人工智能技术得到应用,包括专家系统、多智能体系统、约束推理、启发式搜索、优化和机器学习等。基于序列的模型和图卷积网络在工程生物系统领域也受到关注。因子图神经网络已被用于将生物学知识整合到深度学习模型中。图卷积网络已被用于从蛋白质-蛋白质相互作用网络中预测蛋白质功能。基于序列的卷积和递归神经网络模型已被用于识别蛋白质的潜在结合位点、基因表达和新生物结构的设计。AI在应用于开发综合模型时最有用,它减少了需要执行的实验或设计的数量。代谢工程。在代谢工程中,人工智能已经应用到生物工程过程的几乎所有阶段,例如,人工神经网络被用于预测翻译起始位点、注释蛋白质功能、预测合成途径、优化多个外源基因的表达水平,预测调控元件的强度,预测质粒表达,优化营养浓度和发酵条件,预测酶动力学参数,了解基因型和表型之间的关联,预测CRISPR的指导作用等。聚类已被用于发现基因簇次级代谢物生物合成和鉴定催化特定反应的酶。集成方法已被用于预测通路动力学、最佳生长温度,并在定向进化方法中用于寻找赋予更高适应性的蛋白质。支持向量机已用于优化核糖体结合位点序列并预测CRISPR向导RNA的行为。在代谢工程的各个阶段中,AI最有希望应用于工艺放大,这是该领域的一个重要瓶颈,以及下游加工(例如从发酵液中系统提取产生的分子)。实验自动化。在帮助自动化实验室工作和推荐实验设计方面,人工智能的影响远远超出了DBTL周期的“学习”阶段。自动化在实践中逐渐变得非常重要,因为自动化是获得训练人工智能算法所需的高质量、大容量、低偏差数据的最可靠方式,自动化也使可预测的生物工程成为可能。自动化提供了将复杂协议快速转移和扩展到其他实验室的机会。例如,液体处理机器人站构成了生物铸造厂和云实验室的支柱。这些代工厂已经能够看到自己在未来被机器人技术和规划算法所破坏,获得了通过DBTL周期快速迭代的能力。语义网、本体论和模式已经彻底改变了设计和协议的表示、通信和交换。这些工具支持快速实验并以结构化、可查询的格式生成更多数据。在大多数内容丢失或手动记录在实验室笔记中的领域,人工智能的前景正在推动该领域的重大变革,减少生成数据的障碍。微流体是宏观液体处理的替代方法,具有更高的吞吐量、更少的试剂消耗和更便宜的结垢。事实上,微流控可能是实现自动驾驶实验室的关键技术,有望通过人工智能增强自动化实验平台,大大加快研发进程。AutopilotLab涉及一个完全自动化的DBTL循环,其中AI算法通过根据先前的实验结果做出假设来主动搜索有前途的实验程序。所以这可能是合成生物学领域AI研究人员最大的机会。虽然自动化DBTL电路已经在液体处理机器人工作站中得到证明,但微流控芯片提供的可扩展性、高通量能力和制造灵活性可能会带来最终的技术飞跃,使人工智能成为现实。3利用AI研究合成生物学面临的挑战人工智能已经开始进入各种合成生物学应用领域,但仍然存在技术和社会问题成为两个领域之间的障碍。技术挑战。将AI应用于合成生物学的技术挑战是:数据分散在不同的模式中,难以组合,非结构化,并且通常缺乏收集数据的背景;模型需要的数据比通常在单个实验中收集的数据多得多,并且缺乏可解释性和不确定性量化;在更大的设计任务中,没有有效评估模型性能的指标或标准。此外,实验通常旨在仅探索积极的结果,这会使模型的评估复杂化或产生偏差。图片说明:人工智能技术应用于合成生物学领域的挑战。数据挑战。缺乏合适的数据集仍然是人工智能和合成生物学整合的第一大障碍。将人工智能应用于合成生物学需要来自单个实验的大量标记、精选、高质量、背景丰富的数据。尽管社区在构建包含各种生物的序列(甚至全基因组)和表型的数据库方面取得了进展,但标记数据仍然很少。如本文所用,“标记数据”是指映射到捕获其生物学功能或细胞反应的测量的表型数据。正是这种测量和标记的存在,使得AI/ML和合成生物学解决方案得以成熟,就像在其他领域一样,使AI与人类能力相抗衡。缺乏对数据工程的投资是缺乏适用数据集的部分原因。鉴于AI技术的进步,计算基础设施需要支持并确保其成功往往会丢失。AI界称之为需求金字塔,数据工程是其中重要的一环。数据工程包括实验计划、数据收集、结构化、访问和探索等步骤。成功的AI应用案例包含标准化、一致且可复制的数据工程步骤。虽然我们现在可以以前所未有的规模和细节收集生物数据,但这些数据通常不能立即应用于机器学习。采用社区范围的标准来存储和共享测量、实验条件和其他使数据更适合AI技术的元数据仍然存在许多障碍。需要严谨的工作和高度的共识才能使这些标准得到快速采用,同时促进数据质量评估的通用标准。简而言之,AI模型需要在所有实验中进行一致且可比较的测量,这会延长实验时间。这一要求给已经遵循复杂协议的科学实验者带来了巨大的负担。因此,为了满足迫在眉睫的项目截止日期,通常会牺牲收集数据的长期需求。图例:标准化的AI/ML基础设施可以支持合成生物学研究。虽然中期研究通常是关注的焦点,但基础知识至关重要,需要大量资源投资。这种情况通常会导致数据集稀疏,这些数据集仅代表构成组学数据堆栈的多层的一小部分。在这种情况下,数据表示对整合这些孤立的数据集以进行综合建模的能力具有重大影响。目前,该行业正在各个垂直领域投入大量精力执行数据清理、模式对齐以及提取、转换和加载操作(ETL),以收集难以捉摸的数字数据并将其准备为适合分析的形式。这些任务占用了数据科学家近50%到80%的时间,限制了他们深入探索的能力。处理大量数据类型(数据多模态)对合成生物学研究人员来说是一个挑战,与数据量相比,随着数据多样性的增加,预处理活动的复杂性急剧增加。建模/算法挑战。许多推动当前AI进步的流行算法(例如计算机视觉和NLP中的算法)在分析组学数据时并不稳健。当应用于特定实验中收集的数据时,这些模型的传统应用常常会遇到“维数灾难”。在某些条件下,实验者可以生成生物体超过12,000个测量值(维度)的基因组学、转录组学和蛋白质组学数据。对于这样的实验,标记实例的数量(例如,成功或失败)通常最多只有几十到几百个。对于这些高维数据类型,很少捕获系统的动态(时间分辨率)。这些测量误差使得对复杂动力系统的推断成为一项重大挑战。图例:维度突变组学数据与其他数据模式(例如顺序数据、文本数据和基于网络的数据)既有相似之处也有不同之处,经典方法并不总是适用于这些数据。这些数据的共同特征包括位置编码和依赖性,以及复杂的交互模式。然而,这些数据之间存在一些根本差异,例如:它们的基本特征、有意义分析所需的背景,以及跨模式的相对标准化以进行具有生物学意义的比较。因此,很难找到能够准确描述组学数据的鲁棒生成模型(类似于高斯模型或随机块模型)。此外,生物序列和系统代表了生物功能的复杂代码,但很少有系统的方法来以类似于解释语义的方式或从书面文本的上下文中解释这些代码。这些不同的特征使得通过数据探索提取见解、生成和检验假设变得具有挑战性。工程生物学涉及学习黑盒系统的挑战,我们可以在黑盒系统中观察输入和输出,但我们对系统内部运作的了解是有限的。考虑到这些生物系统在一个组合的大参数空间中运行,人工智能解决方案使用策略来有效地设计实验来探索生物系统,从而产生各种假设并对其进行测试。机会。最后,许多流行的AI算法解决方案都没有明确考虑不确定性,也没有显示出在输入扰动下控制误差的稳健机制。考虑到我们试图设计的生物系统中固有的随机性和噪声,这一基本差距在合成生物学领域尤为重要。指标/评估挑战。基于预测和准确性的标准人工智能评估指标不足以应用于合成生物学领域。像?这样的回归模型或基于分类模型准确性的度量无法解释我们试图建模的底层生物系统的复杂性。在这个领域,量化模型可以阐明生物系统的内部运作并捕获现有领域知识的其他指标同样重要。为此,包含可解释性和透明度原则的人工智能解决方案是支持迭代和跨学科研究的关键。此外,正确量化不确定性的能力需要创造性地开发新指标来衡量这些方法的有效性。我们还需要适当的实验设计指标。评估和验证合成生物学中的模型有时需要额外的实验和额外的资源。少量的错误分类或小错误会对研究目标产生重大影响。这些成本应该被整合到AI模型的目标函数或评估中,以反映错误分类对现实世界的影响。社会学挑战。在利用人工智能与合成生物学相结合时,社会学问题可能比技术障碍更具挑战性(反之亦然)。我们的印象是,研究中涉及的不同文化之间缺乏协调和理解,因此导致了一些社会学障碍。虽然已经有解决这一障碍的方法,但有趣的是,学术界和工业界仍然存在一些持续存在的社会学问题。社会问题的出现是因为两个截然不同的专家群体:计算科学家和实验室科学家在工作中发生冲突和分歧。计算科学家和实验室科学家在许多方面接受不同的培训。受过训练的计算科学家倾向于关注抽象,并对自动化、计算效率和颠覆性方法充满热情。他们自然而然地倾向于任务专业化,并找到将重复性任务卸载到自动化计算机系统的方法。另一方面,实验室科学家是务实的,接受过具体观察的训练,并且更喜欢可解释的分析,这些分析准确地描述了实验的具体结果。图片说明:计算科学家和实验室科学家来自不同的研究文化,他们必须学会一起工作,才能充分受益于人工智能和合成生物学的结合。两个世界有着不同的文化,这不仅体现在这两部分如何解决问题上,还体现在他们认为哪些问题值得解决。例如,建设基础设施以支持一般研究的努力与解决特定研究问题的努力之间存在紧张关系。计算科学家倾向于提供可用于各种项目的坚实基础设施,而实验科学家则倾向于专注于最终目标。计算科学家喜欢开发数学模型来解释和预测生物系统的行为,而实验室科学家喜欢产生定性假设并尽快通过实验检验这些假设(至少在研究微生物时,因为这些实验可以在3-5天。几乎完成)。此外,计算机科学家往往只对崇高的目标感到兴奋,比如火星上的生物工程生物,能够创造符合所需规格的DNA的活写编译器,重建树木以达到所需的形状,现实生活中的生物工程龙,或用人工代替科学家智力。实验室的科学家将此类目标视为纯粹的“炒作”,因为在以前的案例中,计算类型承诺很多但没有实现,他们更愿意只考虑使用当前技术状态可以实现的目标。解决社会的挑战。这些社会学问题的解决方案是鼓励跨学科团队和需求。尽管我们不能否认,在企业环境(团队赢与输)中实现这种包容性环境可能比在学术环境中更容易,在学术环境中,研究生或博士后通常是几篇第一作者论文声称成功的结果,而没有需要与其他学科融合。实现这种整合的一种可能方法是创建交叉培训课程,实验室科学家接受编程和机器学习方面的培训,计算科学家接受实验方面的培训。通过这种方式,可以为两个社区带来一些有价值的、独特的和必要的文化交流。大家越早发现这一点,合成生物学就能发展得越快。从长远来看,我们需要将生物学和生物工程的教学与自动化和数学相结合的大学课程。虽然目前有一些学校开设了这样的课程,但目前只是九牛一毛。4前景和机遇AI可以从根本上增强合成生物学,并通过在工程舞台空间中添加物理、化学或生物学等第三轴,使其发挥充分的影响力。最明显的是,人工智能可以对生物工程结果做出准确的预测,从而实现高效的逆向工程。此外,人工智能可以支持科学家设计实验并选择何时何地进行采样,这是目前需要训练有素的专家才能解决的问题。人工智能还可以支持基于大数据源(包括历史实验数据、在线数据库、本体和其他技术资料)的自动搜索、高通量分析和假设生成。人工智能可以让合成生物学领域的专家更快地探索大型设计空间,并提出一些有趣的“跳出框框”假设,从而增加他们的知识。合成生物学对当前的AI解决方案提出了一些独特的挑战,如果解决这些挑战,将在合成生物学和AI领域取得根本性进展。设计生物系统本质上依赖于控制系统的能力,这是对理解系统潜在规律的最终考验。因此,支持合成生物学研究的人工智能解决方案必须能够描述做出最佳预测的机制。尽管最近基于深度学习架构的AI技术改变了我们对特征工程和模式发现的思考方式,但就推理和解释其学习机制的能力而言,它们仍处于起步阶段。因此,结合因果推理、可解释性、鲁棒性和不确定性估计需求的人工智能解决方案在这个跨学科领域具有巨大的潜在影响。生物系统的复杂性使得单纯基于蛮力关联发现的人工智能解决方案无法有效描述系统的内在特征。将物理和机械模型与数据驱动模型顺利结合的新型算法是一个令人兴奋的新研究方向。我们目前在气候科学和计算化学方面看到了一些初步的积极成果,并希望在生物系统研究中看到类似的进展。由于人工智能提供了修改生物系统的工具,合成生物学反过来可以激发新的人工智能方法。生物学启发了人工智能的基本要素,如神经网络、遗传算法、强化学习、计算机视觉和群体机器人。事实上,有许多生物现象可以而且值得进行数字模拟。例如,基因调控涉及一个精心设计的相互作用网络,它不仅能让细胞感知环境并对其做出反应,还能让细胞保持活力和稳定。维持体内平衡(由生命系统维持的稳定的内部、物理和化学条件的状态)涉及在适当的时间产生适当数量的适当的细胞成分,感知内部梯度,并仔细调节细胞与环境的交换。我们能否理解并利用这种能力来生产真正自我调节的人工智能或机器人?另一个例子涉及涌现属性(即系统展示的属性,而不是由其组成部分展示的属性)。例如,蚁群的行为和反应是单个有机体的行为和反应,而不仅仅是单个蚂蚁的总和。同样,意识(即对内部或外部存在的感知或意识)是从物理基础(例如神经元)中导出的定性特征。自组织和集体构建结构的群体机器人已经存在。我们能否使用涌现的一般理论来创建机器人和生物系统的混合体?我们能否从一种完全不同的物理基质(例如晶体管)中创造意识?最后一个可能的例子涉及自我修复和复制:即使是最简单的生命例子也显示出自我修复和复制的能力。我们能否理解这种产生自愈和复制人工智能现象的困境?虽然之前已经考虑过这种类型的仿生学,但“合成生物学”的美妙之处在于它为我们提供了“修补”生物系统的能力测试仿生学模型和基本原理的能力。例如,我们现在可以在基因组范围内修补细胞基因调控,对其进行修改并测试究竟是什么导致了其非凡的恢复力和适应性。或者我们可以对蚂蚁进行生物工程,以测试随之而来的群体行为以及这如何影响蚂蚁的存活率。或者我们可以改变细胞的自我修复和自我复制机制,测试长期进化对其竞争能力的影响。此外,在细胞建模中,我们能够很好地理解所涉及的生物学机制。即使你了解神经网络如何检测眼睛的形状,你也不太可能了解大脑如何做同样的事情,但合成生物学研究是不同的。机械模型的预测并不完美,但产生了定性上可接受的结果。将这些机械模型与ML的预测能力相结合可以帮助弥合两者之间的差距,并提供生物学见解,说明为什么某些ML模型在预测生物学行为方面比其他模型更有效。这些见解可以引导我们研究新的机器学习架构和方法。人工智能可以帮助合成生物学,合成生物学反过来又可以帮助人工智能,这两个学科在持续反馈循环中的相互作用将创造我们现在无法想象的未来,就像本杰明富兰克林无法想象他对电的想象一样。有一天将使互联网成为可能的发现。