当前位置: 首页 > 科技观察

机器学习如何推进数据中心?_0

时间:2023-03-17 23:16:06 科技观察

1。前言大数据革命引发了数据中心的爆炸式增长,数据中心的能耗也在不断增加。本文回顾了两种提高数据中心效率的标准方法,并认为第三种方法——机器学习——是一种出色的解决方案。Skynet、VIKI和HAL9000是具有机器学习能力的AI的一些例子。它们的创建是为了解决对人类来说过于复杂的问题,并通过神经网络控制它们以提高效率、安全性和成功率。当然,电影需要对立面,所以这些AI奇观给出了消极的阴暗面——但这种复杂的机器学习是真实存在的,并且已经成功实施。自2000年代以来,数据中心激增。一个大型电商服务数据中心只用几个19英寸的机柜就可以部署所需的服务器、存储和网络设备。如今,超大规模数据中心的数千个机架上部署了数以千计的硬件设备。它们最初是本地办公室的小型服务器,现在已经发展成为非常大的设施来维护我们的物联网和所有相关数据。美国人使用的数据量、处理量、连接性和存储量需要大量电力,这意味着数据中心是主要的能源消耗者。行业和政府专家(占该国年用电量的2%)正致力于提高效率,因为数据中心的需求预计会增加。目前,这个问题的解决方案主要有两个:他们必须让旧数据中心尽可能高效他们必须建立更高效、更大的数据中心但是,它没有找到解决这个困难的办法。真正的解决方案在于实施机器学习系统。通过他们的过程,可以减少数据中心的能源消耗并使它们比以前更有效率。如今,部署依赖机器学习的工具的数据中心运营商在效率和可靠性方面初见成效,但他们才刚刚开始感受到机器学习对数据中心管理的全面影响。机器学习是人工智能的一个子集,有望优化未来数据中心运营的各个方面,包括规划和设计、管理IT工作负载、确保正常运行时间和控制成本。IDC预测,到2022年,得益于嵌入式AI功能,数据中心50%的IT资产将能够自主运行。2.数据中心能源消耗容纳大量服务器场的大型、不起眼的容器正在美国慢慢涌现。这是一种全球现象,因为数据和信息以数字方式存储,因此需要空间。由于节省了大量资金,我们对人类模式和趋势有了更深入的了解。不幸的是,将数据存储在服务器中并不像一个图书馆。它们需要恒定的功率来产生热量,并且需要冷却这些热量,从而消耗更多的能量。2014年,仅美国数据中心就消耗了约700亿千瓦时的电力,换句话说,1千瓦时可为智能手机充电一年。需要能源来保持数据中心24/7全天候运行、使用大型冷却系统进行冷却以及在紧急情况下维持冗余电源。这大约是每年70亿美元的维护费用,能源成本影响到每个人。消费者、数据库提供商和环境都感受到了如此大量能源消耗的后果,但我们的利用率丝毫没有放缓的迹象。因此,利用和能源效率是适应的主要目标。图1:数据中心用电量(十亿千瓦时/年)美国至少有300万个数据中心,足以容纳该国每100人中就有一个。数据中心的增长是复杂的,大多数服务器和相关设备是在2000年到2010年之间购买的。但是,随着服务器空间使用效率的提高和对大型数据中心的依赖增加,统计数据表明存储量将适应而不是增加。3.能源效率、更好的建筑规划和机器学习有些人可能会争辩说办公室服务器比新的超大规模数据中心更高效。或者,在破土动工和不必要地淘汰它们之前,应该使用较旧的现场数据中心。这些想法是有道理的,专用服务器由其所有者处理并被回收而不是更换,但它们实际上不起作用。现场服务器需要数据中心所做的一切,因此公司在自己的服务器场上花费的钱比使用远程中心所需的确切空间要多。此外,较旧的数据中心在建造时并未考虑能源效率,因此即使是看似新的数据中心也可能已经过时。图2:数据中心总耗电量(GWh/年)美国能源部鼓励大规模实施能源效率。他们的“更好的建筑”计划邀请企业和数据中心减少能源消耗或使用可再生能源。谷歌等大型科技公司率先采用了这种方法,使用机器学习系统来降低数据中心的能源消耗。4.DeepMind——面向数据中心和未来的机器学习机器学习是人工智能从场景中学习并做出响应的过程,而不是通过编程选项进行响应。机器学习系统获取历史数据、参数(目标),并通过模仿我们大脑功能的神经网络进行操作。它们非常适合那些对于以前的系统和专业人员来说过于复杂而无法有效管理的数据中心。数据中心每天发生近十亿个事件,而这些事件只能由直观的系统处理,以实现最大的可操作性。例如:设备-设备/人员-人员交互对于每个中心和日常活动都是独一无二的传统系统和人员无法快速适应导致重大能量损失的内部/外部环境的微小变化能够降低并保持40%的能源效率,这是他们希望广泛发布以减少能源使用的通用系统。谷歌数据中心团队针对某些操作场景对DeepMind进行了培训,创建自适应参数,输入温度和泵速等历史数据,并针对未来的电源使用效率(PUE)。PUE实际上是建筑能耗与IT能耗的比值;用于衡量能源效率。当部署在谷歌的数据中心时,它可以通过分析难以理解的数据集并建议采取的行动来成功降低能源消耗。这听起来与AI最初提到的任务相去不远。幸运的是,科幻小说和科学之间有着明确的界限。像DeepMind这样的系统是一个优势,它能够在人类无法掌握的范围内减少能源消耗。随着时间的推移,更多的系统将实施机器学习,以便最大限度地提高可操作性,为人们省钱,更重要的是,还可以保护环境。UptimeInstitute研究副总裁RhondaAscierto表示:“这是数据中心管理的未来,但我们仍处于早期阶段。”随着云、托管设施和本地数据中心的混合环境,并将越来越多地包括边缘位置,创建更智能的数据中心变得越来越重要。五、机器学习在数据中心的应用什么是机器学习?简而言之,机器学习是从示例和经验(即数据集)中学习,而不是从依赖于硬编码和预定义规则的算法中学习。换句话说,不是开发人员告诉程序如何区分苹果和橙子,而是通过数据“训练”算法并自行学习如何区分苹果和橙子。以下是当今数据中心管理中机器学习的五个最大用例:5.1效率分析Ascierto表示,当今的组织正在使用机器学习来提高能源效率,主要是通过监控温度和调整冷却系统。例如,谷歌今年早些时候宣布,它正在使用人工智能自动管理和优化其数据中心的冷却,通过分析21个变量,例如外部空气温度、数据中心的电力负载和机房的气压。后部。服务器散发热量。该公司表示,谷歌的机器学习算法会自动、持续地实时调整冷却装置的设置,每年可将用于冷却的能源消耗减少30%。此外,它还可以就设计或配置数据中心的最有效方式提出建议,包括IT设备或工作负载的良好物理位置。5.2容量规划机器学习可以帮助IT组织预测需求,这样他们就不会耗尽电力、冷却、IT资源和空间。例如,如果一家公司正在整合数据中心并将应用程序和数据迁移到中央数据中心,算法可以帮助它确定迁移如何影响设施的容量,Ascierto说。DCIM软件提供商NlyteSoftware的首席战略官EnzoGreco表示,容量规划是构建新数据中心的一项重要服务,该公司最近推出了数据中心管理即服务(DMaaS)产品,并与IBMWatson合作以整合它。被整合。将机器学习功能整合到其产品中。“你需要让数据中心尽可能准确。你需要多少台服务器?你需要多少冷却?你只需要与服务器一样多的冷却,”他说。“还有,你需要多大的力量?这取决于冷却和服务器容量。”5.3风险分析在所有用例中,使用机器学习进行风险分析是最关键的,因为它可以识别异常并帮助防止停机。“机器可以检测到否则无法检测到的异常情况,”Ascierto说。例如,施耐德电气的DMaaS可以分析关键数据中心设备的性能数据,例如电源管理和冷却系统,并预测何时可能发生故障。施耐德电气数据中心解决方案架构师副总裁JoeReele表示,当算法检测到异常时,系统会提醒客户,以便他们可以在设备出现故障之前对其进行故障排除。5.4客户流失分析未来,Ascierto认为托管服务提供商会使用机器学习来更好地了解他们的客户并预测他们的行为——从购买或添加新服务的可能性到续签合同甚至支付账单。她说,这是客户关系管理的延伸,可以包括通过聊天框自动进行客户互动。MayaHTT已经在分析客户情绪。Duquette说,目前没有数据中心客户使用它,但通过自然语言处理,该公司的软件可以分析电子邮件并记录支持电话以预测未来的客户行为。5.5预算影响分析和建模Ascierto表示,这将数据中心运营和性能数据与财务数据(甚至包括适用的税收)相结合,以了解购买和维护IT设备的成本。“它模拟了一台设备的总拥有成本和整个生命周期,例如将一个冷却系统与另一个冷却系统进行比较,”她说。例如,Salesforce在2016年收购了一家名为Coolan的初创公司,该公司使用机器学习来分析IT设备的总拥有成本,细化到单个服务器组件。问题是何时会有越来越多的公司使用机器学习进行预算影响分析。一些私营公司可能会自己做,但这很复杂,因为它需要以计算机模型可以提取的格式轻松访问财务数据。出于安全原因,DMaaS客户不太可能希望与第三方共享他们的财务数据。“对于DMaaS服务,让客户共享他们的财务数据在早期是一个更棘手的提议,”她说。这个领域还不成熟,但发展很快。人工智能系统投入生产需要时间,就像新的数据中心工作人员一样,但最终类似的机器学习工具实际上可以帮助你运行你的数据中心。