当前位置: 首页 > 科技观察

大数据与生命科学

时间:2023-03-16 13:38:02 科技观察

本文列举了一些机构已经开发或正在开发的分析大数据的方法或工具。例如,美国的BioDatomics公司开发了比传统软件分析速度快100倍的BioDT软件;加拿大多伦多ACD/Labs开发的计算系统,在处理大数据时可以整合多种数据格式;加利福尼亚州的IBMAlmaden研究中心开发了文本挖掘工具;ThomsonReutersNuMedii基于大数据的药物再利用。除了上述大数据的三层含义外,本文还提到大数据还应该包括“复杂性”,并列举了马萨诸塞州GNSHealthcare公司基于数据复杂性开发的REFS分析平台。最后,本文认为,所有致力于大数据发展的努力都应该落在使大数据能够推动生物学和医学未来发展的方向上。大数据与生命科学大数据是目前最热门的概念之一,也是一个容易被误解的概念。顾名思义,大数据就是大量的数据,但这只是字面意思。简而言之,大数据包括三层含义(3V):数据量大(volumeofdata)、数据处理速度快(velocityofprocessingthedata)、数据源可变性(variabilityofdatasources)。这是依赖大数据工具进行分析的信息的一个重要特征。美国乔治华盛顿大学计算生物学研究所所长KeithCrandall表示,虽然生物学家花费大量精力收集数据,但实际上,现在生物学面临的瓶颈在于大数据。例如,2002年8月,来自20个研究机构的专家聚集在一起,对第一个完整的人类基因组进行了测序。利用这些研究所配置的基础设施,历时13年,投入30亿美元,获得了约30亿个核核苷酸序列。目前,对一个人进行测序只需花费1,000美元,每周生成320多个基因组。随着研究人员不断开发处理大数据的数量、速度和可变性的方法,研究人员正在开发分析信息的新方法。生命科学的数据来源和形式多种多样,包括基因测序、分子通路、不同人群等。如果研究人员能够解决如何处理这些复杂信息的问题,这些数据可能会变成一种潜在的资产。目前,相关领域都期待推出能够分析大数据并将这些数据转化为更好地理解基本生命科学机制并将分析结果应用于人群健康的工具和技术。(1)“量”的持续增加制药公司几十年来一直在存储数据。美国波士顿默克研究实验室副主任KeithCrandall表示,默克多年来一直在组织涉及数万名患者的临床试验,并拥有向数百万患者学习的知识。在相关患者记录中查找所需信息的能力。该公司已经拥有下一代测序技术,可以为每个样本生成TB级的数据。有了如此庞大的数据,即使是大型制药公司也需要帮助。例如,来自瑞士罗氏公司的布林·罗伯茨表示,与罗氏公司在2011-2012年的一个世纪研发中在一次测量数千或数百个癌细胞系的大规模实验中产生的数据量相比,前者只是后者。只是多了一倍多一点。罗伯茨领导的研究团队期望从这些存储的数据中挖掘出更多有价值的信息。因此,该团队与总部位于加利福尼亚的公司PointCross合作,构建了一个平台,可以灵活地查找罗氏25年前的数据。这些数据,包括数千种复合物的信息,将被挖掘出来,以利用现有知识开发新药。为了处理大量数据,生物研究人员不需要像公司那样的专门设施来处理生成的数据。例如,来自LifeTechnologies(现为ThermoFisherScientific的一部分)的IonPersonalGenomeMachine。新设备可在不到8小时内对多达2GB的碱基进行测序。因此,它可以在研究人员的实验室中进行操作。LifeTechnologies还拥有更大??的仪器,可以在不到4小时内对多达10GB的碱基进行测序。然而,新一代测序为学术界和工业界的生命科学研究人员带来了好处和问题。正如Crandall抱怨的那样,除非他们开发出能够分析所需的大量数据的计算机系统,否则他们无法有效地研究如此多的基因组。基于这种情况,他带领的团队与波士顿大学医学助理教授W.EvanJohnson合作,开发并分析了下一代测序(NGS)平台产生的数据,进而可以将千兆碱基信息转化DNA到计算机的千兆字节。该软件将DNA样本与参考基因组进行比较,以识别病原体。Crandall表示每个样本存储20GB的数据,而这样的样本有数千个,因此每次样本分析产生的数据相当多。事实上,如此大量的数据实际上对医疗保健非常有用,因为研究人员在设计试验时必须考虑到人群的多样性。剑桥大学转化医学教授ChasBountra表示,毕竟从50万人身上得到的结论比从10个人身上得到的结论更可靠、更有说服力。其他研究人员希望看到基因组数据对医疗保健的影响越来越大。例如,遗传信息可以揭示生物标志物或某些疾病的指标(某些分子仅出现在某些类型的癌症中)。英国牛津大学威康信托人类遗传学中心基因组统计学教授GilMcVean教授表示,基因组学为理解疾病提供了强有力的基础。基因组学可以为人类找到与某类疾病相关的生物标志物,并根据这种标志物进行靶向治疗。例如,仅仅因为某种分子驱动了某种癌症的进展,该分子就可以靶向治疗癌症。为了应用这个想法,由McVean领导的一个研究小组正在剑桥大学创建李嘉诚健康信息和发现中心,获得李嘉诚3300万美元的捐赠。中心将设立大数据研究所。McVean总结说,该中心将把分析数据和基因组研究的过程结合起来,以便他们能够克服收集和分析大数据的一些挑战。(2)分析速度快第二个V,即velocity,意思是处理和分析数据的速度要越来越快。研究人员需要高速处理才能分析大量且不断增加的数据。过去,分析基因相关数据一直是一个瓶颈。马里兰州BioDatomics主任AlanTaffel认为,传统的分析平台实际上限制了研究人员的产出(能力),因为这些平台难以使用且依赖生物信息学人员,因此相关工作效率低下,往往需要几天甚至几天的时间几周来分析一个大的DNA。鉴于此,BioDatomics开发了BioDT软件,该软件提供了400多种用于分析基因组数据的工具。将这些工具组合成一个软件包,方便研究人员在任何台式电脑上使用,软件也可以通过云端存储。该软件处理信息流的速度比传统系统快100倍。过去需要一天或一周的时间,现在只需要几分钟或几个小时。一些专家认为需要新的测序工具。新泽西州罗格斯大学计算工程系副教授JaroslawZola表示,下一代测序技术需要新的计算策略来处理来自各种来源的数据,这取决于数据的存储方式、数据的转换方式,以及如何分析数据。这意味着生物研究人员必须学会使用尖端的计算机技术。但是,Zola认为,应该给IT人员施加压力,开发出领域专家容易掌握的方法,在保证效率的同时隐藏算法、软件和硬件架构的复杂性。目前,由Zola领导的团队正致力于此并开发新的算法。(3)可变性首先,生物实验室往往拥有多种设备,这些设备产生的数据以一定的文件形式存在。因此,加拿大多伦多ACD/Labs开发的计算系统在处理大数据时可以整合多种数据格式。ACD/Labs全球战略总监表示,该系统可支持150多种由各种设备生成的文档格式,有利于将多种数据集中在同一环境中,例如将数据收集到其在Spectrus数据库中的开发中。可以通过客户端或网页访问数据库。生物大数据还体现了新型变异性。例如,德国Definiens的研究人员分析组织表型组学(tissuephenomics),即组织或器官样本的结构信息,包括细胞大小、形状、吸收的染料以及细胞相互交流的物质。这些数据可用于多种研究,例如跟踪发育过程中细胞特征变化的研究,确定环境因素对身体的影响,或测量药物对某些器官/组织细胞的影响,等结构化数据,如数据表,不透露所有信息,如药物加工或生物过程。事实上,生物体以非结构化形式存在,描述生物过程的方式有数千种。默克公司的约翰逊认为它有点像期刊文本文件,很难从文献中挖掘数据。由加利福尼亚IBM阿尔马登研究中心的分析专家兼研究员YingChen领导的团队多年来一直在开发文本挖掘工具,目前正在使用AcceleratedDrugDiscoverySolution。药物发现解决方案)。该平台整合了专利、科学文献、基础化学和生物学知识(如化学物质与分子相互作用的机理等),拥有超过1600万种化合物结构,近7000种疾病的信息。使用这个系统,研究人员可以寻找可能对治疗疾病有用的化合物。其他公司正在努力挖掘现有资源以发现疾病的生物学特性,并在此基础上开发疾病治疗方法。NuMedii是汤森路透硅谷的一家公司,致力于为现有药物寻找新用途,也称为药物再利用。NuMedii首席科学家CraigWebb表示,利用基因组数据库,整合各种知识来源和生物信息学方法,可以快速发现药物的新用途。然后,公司根据药物在最初使用时的安全性来设计临床试验,因此可以快速、低成本地开发药物。韦伯描述了该公司的一个项目:研究人员从2500多个卵巢癌样本中收集基因表达数据,并将其与几种计算机算法相结合,以预测现有药物是否能有效治疗卵巢癌或治疗卵巢癌的某种分子亚型。潜在的。(4)复杂性诺华生物医学研究所(NIBR)信息系统执行总监StephenCleaver为三个V增加了复杂性。他认为,制药公司的科研人员从某些个体患者到某些患者群体分析数据,然后整合他们拥有的各种数据的过程非常复杂。在医疗保健领域,由于需要结合各种类型的信息,例如基因组数据、蛋白质组数据、细胞信号、临床研究,甚至来自环境科学研究的数据,大数据分析的复杂性进一步增加。