当前位置: 首页 > 科技观察

从手工作业到工业革命!Nature文章:生物图像分析被深度学习彻底改变的五个领域

时间:2023-03-12 22:57:57 科技观察

从体力劳动到工业革命!Nature文章:被深度学习彻底改变的生物图像分析的五个领域约50,000条神经线由1.34亿个突触连接。为了生成原始数据,生物科学家需要在11个月内使用连续超薄切片电子显微镜对数千个组织碎片进行成像。而最终获得的数据量达到了惊人的1.4PetaBytes(即1400TB,相当于约200万张CD-ROM的容量),这对于研究人员来说简直是天文数字。哈佛大学分子细胞生物学家JeffLichtman表示,如果纯手工完成,人类不可能手动追踪所有的神经线路。地球上什至没有足够的人有效地完成这项工作。显微技术的进步带来了海量的影像数据,但数据量过大,人员不足,这也是连接组学(研究大脑结构和功能连接的学科)等学科的普遍现象生物领域。但计算机科学的使命恰恰是解决这种人力资源短缺的问题,尤其是优化的深度学习算法,可以从大规模数据集中挖掘数据模式。麻省理工学院和哈佛大学布罗德研究所的计算生物学家BethCimini表示,深度学习在过去几年中对生物学领域产生了巨大的推动作用,并开发了许多研究工具。以下是Nature编辑总结的深度学习带来变革的生物图像分析的五个领域。大规模连接组学的深度学习使研究人员能够从果蝇、小鼠甚至人类中生成越来越复杂的连接组。这些数据可以帮助神经科学家了解大脑是如何工作的,以及它的结构在发育和疾病过程中是如何变化的,但神经连接并不容易绘制。2018年,Lichtman与位于加利福尼亚州山景城的谷歌连接组学负责人VirenJain合作,为团队需要的AI算法寻找解决方案。connectomics中的图像分析任务实际上非常困难,你必须能够追踪这些细线,细胞的轴突和树突,而且还要跨越很远的距离,传统的图像处理方法在这个任务中会失败很多错误,对这个任务基本没用。这些神经线可以比一微米还细,可以延伸数百微米甚至跨越数毫米的组织。深度学习算法不仅可以自动分析连接组学数据,还可以保持较高的准确性。研究人员可以使用包含感兴趣特征的标记数据集来训练复杂的计算模型,这些模型可以快速识别其他数据中的相同特征。欧洲分子生物学实验室的计算机科学家AnnaKreshuk认为,使用深度学习算法的过程类似于“举个例子”。只要有足够的例子,你就可以解决所有的问题。但即使有了深度学习,Lichtman和Jain的团队仍有一项艰巨的任务:绘制人类大脑皮层的片段。在数据采集阶段,光是取了5000多张超薄组织切片就用了326天。两位研究人员花了大约100个小时手动注释图像和追踪神经元,创建了一个用于训练算法的地面实况数据集。在标准数据上训练的算法可以自动将图像拼接在一起,识别神经元和突触,并生成最终的连接组。Jain的团队也投入了大量的计算资源来解决这个问题,其中包括数千个张量处理单元(TPU),用了几个月的时间来预处理100万个TPU小时所需的数据。虽然研究人员已经获得了目前能够收集到的最大的数据集,并且能够在非常精细的水平上对其进行重构,但是这个数据量只占人类大脑的0.0001%左右。随着算法和硬件的改进,研究人员应该能够识别出更大的大脑区域,同时能够解析出更多的细胞特征,例如细胞器甚至蛋白质。至少,深度学习提供了一种可能性。虚拟组织学组织学是医学上基于化学或分子染色诊断疾病的重要工具。但整个过程费时费力,往往需要数天甚至数周才能完成。活组织检查被切成薄片,染色以揭示细胞和亚细胞特征,结果由病理学家读取和解释。加州大学洛杉矶分校的计算机工程师AydoganOzcan认为可以通过深度学习加快整个过程。他训练了一个定制的深度学习模型,通过计算机模拟对组织切片进行染色,将来自同一切片的数万个未染色和染色样本输入模型,让模型计算它们之间的差异。除了虚拟染色的时间优势(可以瞬间完成)外,病理学家通过观察发现,虚拟染色与传统染色几乎没有区别,专业人士也无法分辨。实验结果表明,该算法可以在几秒钟内复制乳腺癌生物标志物HER2的分子染色,而在组织学实验室中,这一过程通常至少需要24小时。由三名乳腺病理学家组成的专家小组评估了这些图像,发现它们在质量和准确性方面与传统的免疫组织化学染色相当。当虚拟染色商业化时,Ozcan看到了药物发现的希望,但他更感兴趣的是消除组织学对有毒染料和昂贵染色设备的需求。查找细胞如果您想从细胞图像中提取数据,您必须知道细胞在图像中的实际位置,这一过程也称为细胞分割。研究人员需要在显微镜下观察细胞,或者在软件中一个一个地勾勒出细胞轮廓。加州理工学院的计算生物学家MorganSchwartz正在寻找自动化处理的方法。随着成像数据集变得越来越大,传统的手动方法遇到了瓶颈,如果没有自动化,一些实验就无法分析。Schwartz的研究生导师、生物工程师DavidVanValen创建了一套人工智能模型,并将其发布在deepcell.org网站上,可用于计数和分析活细胞中的细胞和其他特征,并保存组织图像。VanValen与包括斯坦福癌症生物学家NoahGreenwald在内的合作者还开发了Mesmer,这是一种深度学习模型,可以快速准确地检测不同组织类型中的细胞和细胞核。根据Greenwald的说法,研究人员可以利用这些信息来区分癌变组织和非癌变组织,并寻找治疗前后的差异,或基于成像的变化,以更好地了解为什么有些患者有反应或没有反应,以及识别肿瘤.亚型。定位蛋白质人类蛋白质图谱项目利用了深度学习的另一个应用:细胞内定位。斯坦福大学的生物工程师EmmaLundberg说,在过去的几十年里,该项目已经生成了数百万张描绘人体细胞和组织中蛋白质表达的图像。最初,项目参与者不得不手动对这些图像进行注释,但这种方法是不可持续的,Lundberg求助于人工智能算法。在过去的几年里,她开始在Kaggle挑战中众包解决方案,科学家和AI爱好者完成各种计算任务以获得奖金,分别为37,000美元和25,000美元。参与者将设计受监督的机器学习模型并注释蛋白质图谱图像。Kaggle挑战赛的结果也让项目成员们大吃一惊。获胜模型的性能比Lundberg之前的蛋白质定位模式多标签分类高出约20%,并且可以推广到细胞系。对存在于多个细胞位置的蛋白质进行准确分类的新行业突破。有了模型,生物实验就可以向前推进。在人类中,蛋白质的位置很重要,因为相同的蛋白质在不同的地方表现不同。了解蛋白质是在细胞核中还是在线粒体中有助于了解其功能。追踪动物行为瑞士洛桑联邦理工学院生物技术中心的神经科学家MackenzieMathis长期以来一直对大脑如何驱动行为感兴趣。为此,她开发了一个名为DeepLabCut的程序,使神经科学家能够从视频中追踪动物的姿势和精细动作,将“猫视频”和其他动物记录转化为数据。DeepLabcut提供了一个图形用户界面,允许研究人员通过单击按钮上传和注释视频以及训练深度学习模型。4月,Mathis的团队扩展了该软件以同时估计多种动物的姿势,这对人类和人工智能来说都是一个新的挑战。将DeepLabCut训练的模型应用于狨猴,研究人员发现,当动物靠得很近时,它们的身体会对齐并朝相似的方向看,而当它们分开时,它们往往会面对面。生物学家使用动物的手势来了解两只动物如何互动以及注视或观察世界。