在使用公共云方面,很少有市场部门比生命科学行业更有发言权。在这一领域,随着生成和收集相关数据集的成本大幅下降,数据量急剧增长;虽然这意味着所需的计算资源量增加了,但现在的选择比以往任何时候都多得多——无论是在内部处理器内核和云集群的组合方面,还是在软件编排和应用方面,都是如此。许多广泛用于基因组学研究、药物发现和生命科学其他分支的生物信息学应用程序可以并行处理,使它们成为在云环境中运行的理想选择。虽然所有的基础似乎都已到位(至少乍一看),尤其是因为AmazonWebServices和其他大型云资源提供商正在利用非常先进的数据管理、应用程序框架、存储、计算和安全工具,以增加对企业用户的吸引力,但还存在一些差距。反过来,生命科学和基因组学市场发现他们的云产品与提供特定领域云服务的供应商更加一致,正如许多人所期望的那样,随着公共云采用的成熟。DNAnexus的高级科学家安德鲁·卡罗尔(AndrewCarroll)表示,除了缺少一些自定义的、特定的合规性和安全功能外,生命科学公司还缺少一个管理系统来处理数PB的数据和数十亿个对象。“此外,还有大规模运营的挑战——运行一项工作1次或100次并不难,但要让同一个系统运行数千或数百万次,你就会遇到很多问题。随机错误或其他被证明是严重的低级问题。如果您有位翻转或节点故障,那么当您运行数百万个作业时,这将是一个大问题。”DNAnexus为其用户使用亚马逊云少数几家公司之一,既提供了一个可以相对快速构建的环境,并配备了所有适当的合规性和关键管理工具,又提供了一个供开发人员将代码移植到其中的环境,并拥有在AmazonEC2上运行的代码在内部最高效的机器上运行以满足工作负载要求,这一要求涉及解决方案的交付时间和成本效益。这方面值得关注的是,公司的终端用户,尤其是基因组用户是如何做出决策的:是自建还是购买基因组和研发基础设施。Carroll说,虽然许多大型用户已经在本地拥有集群,但许多本地工作负载往往是突发的,这意味着他们需要采用多种方法将工作负载推送到云端进行处理。但让他对这些本地集群用户印象最深的是,云使他们现有的硬件投资更有价值。“如果你看一下本地集群的效率,假设你以110%的速度运行。这不好,因为这意味着存在延迟。对于担心这种情况的公司来说,他们往往会过度配置;一方面,在在那些突发时期(可能是涉及10,000个基因组的问题),集群可以被90%的利用。我们发现,迁移到云端来处理此类突发事件是结合本地资源和使用亚马逊资源的最有效方式。有趣的是,卡罗尔还看到了一些从未投资建设自己集群的小型生命科学公司的显着趋势。“对这些用户来说,好处是他们可以利用外部力量。”这意味着他们有更多的闲置资源,否则这些资源将用于管理他们的IT和基础设施;现在他们的精力都花在了如何使用云服务上。”这意味着公司中的IT人员可以将他们的注意力从简单地管理裸机系统转移到在应用程序、测试或开发方面进行创新的新工作。内部没有集群资源的另一个优势是,随着工作负载的变化,计算需求也会随之变化。对于需要处理内部基础设施的用户,基础设施确实擅长处理一组主要的应用程序,但该基础设施(计算、内存和存储)都是固定的。“我们真的是投机取巧,因为我们从亚马逊那里得到了一大堆关于我们可以使用哪些处理器的选择,比如我们是否需要内存密集型方法,或者我们是否需要SSD或更多磁盘,”Carroll解释道。他在DNAnexus的团队在少量节点类型的样本上运行用户处理的每个应用程序,以确定最佳操作环境,同时考虑到用户的需求:在预算范围内按时交付解决方案。如果用户想要某种类型的处理器或配置,他们可以在系统内进行更改,但Carroll表示大多数用户使用经过验证的默认设置。虽然后端云硬件情况和自建或购买的问题值得关注,但归根结底,这些用户对合规性、安全性和应用程序移植的担忧,实际上让他们最终决定考虑DNAnexus。决定。Carroll告诉我们,他们在过去几年投入了大量的精力来构建一个可以通过容器(使用LXC,而Docker的安全问题是限制因素)和移植的自定义环境来隔离的系统,以确保符合《健康保险可携性及责任性法案》(HIPAA)等法规,让每台机器都隔离,并有坚实的数据治理结构,让所有的操作都可以跟踪和报告。的确,任何公司都可以让自己的工程师来构建EC2集群,但在处理个人健康数据时就没那么简单了,尽管亚马逊已经在该领域采取了多项措施来吸引生命科学公司。“这不是亚马逊是否符合HIPAA标准的问题,因为这只关乎合规性和机器安全性。它必须是数据管理级别的合规性;当我们谈论PB级数据时,这一点尤其重要。Carroll解释说,如果一家公司想要使用亚马逊或其他供应商的资源来构建自己的云集群,则需要数年的高技能工程师来构建DNAnexus构建的系统。他说,即使他们能做到这一点,他的团队也必须管理这个系统。选择这样的基因组即服务提供商让DNAnexus的团队能够专注于他们可能会忽视的其他领域,包括渗透测试和构建新的开发工具以简化应用程序开发和移植。鉴于硬件、应用程序和数据传输方面的变量,价格是一个棘手的问题,这才是对用户真正有吸引力的地方,但可以肯定地说,特定领域的高性能计算云即将到来。 原标题:生命科学云引发更多集群问题
