根据世界经济论坛的估计,到2025年,全球每天将产生463艾字节的数据。为了应对不断增长的数据洪流,数据中心运营商正在寻找实现四个关键目标的新方法:最大限度地延长正常运行时间、优化能源使用、检测潜在风险和防御网络攻击。利用机器学习(ML)技术是一个重要的潜在解决方案。采用机器学习和人工智能看似简单,但企业高管有理由谨慎行事。挑战包括投资回报的不确定性、围绕数据共享的复杂政策以及高层管理人员缺乏意识和支持。然而,鉴于企业对数据的依赖程度,技术领导者不能忽视机器学习和其他人工智能应用的重要性,尤其是在维持正常运行时间方面。企业为宕机付出高昂代价计划外数据中心宕机的成本从每小时140,000美元到540,000美元不等,具体取决于企业规模和所在行业。英国航空公司在2017年遭遇了一次重大数据中心中断,给航空公司造成了超过7500万美元的损失。由于机器学习的进步和更智能的基础设施,今天的数据中心能够大大简化正常运行时间操作。据市场研究公司InternationalDataCorp称,到2022年,超过50%的数据中心技术可以使用嵌入式人工智能和机器学习功能自主运行。以下是机器学习可用于增强数据中心运营的四种方式:(1)最大限度地提高能源效率全球数据中心占全球能源使用量的1%。这听起来可能是一个很小的数字,但即使是运营效率的适度提高也会带来显着的成本节约,并防止数百万吨二氧化碳被释放到大气中。好消息是能源管理是最容易实施机器学习的领域之一。例如,谷歌使用DeepMind节省了大约30%的能源,显着降低了开销。(2)准确的容量规划为了满足不断增加的工作量,数据中心管理者必须提前准确预测对计算资源的需求。这些预测需要实时更新以反映环境条件的任何变化。使用先进的机器学习算法构建的预测模型,可以处理PB级的海量数据,智能预测容量和性能利用率。这种规划有助于数据中心避免任何可能导致停机和影响运营的资源短缺。(3)更快的风险分析可以训练机器学习比人类更快、更准确地检测异常。数据中心人员可能需要很长时间才能发现问题,或者更糟的是,完全忽略异常。例如,一些数据中心管理即服务(DMaaS)程序可以分析来自关键数据中心设备(例如电源管理和冷却系统)的性能数据,并预测它们何时可能发生故障。通过提前通知数据中心设备经理即将发生的故障,机器学习技术可以最大限度地减少停机时间。(4)防御网络攻击的能力防御分布式拒绝服务(DDoS)攻击需要快速检测和低误报率。这些检测方法大致分为两类:基于特征的和基于异常的。基于签名的检测在一般流量中具有已知签名,并被广泛实施和使用。基于异常的检测超越了正常的流量模式。机器学习回归模型可用于识别流量异常的类型,有助于最大限度地减少误报。克服挑战一些数据中心正在进行人工智能和机器学习试点项目,但其他数据中心难以全面部署。这是因为试点项目将使用较小的数据集并在实验室条件下运行。例如,在现实世界中,可能需要在几分钟内处理数TB的数据。因此,将人工智能从实验室扩展到现场是数据中心必须克服的重大挑战。其他挑战包括难以访问高质量数据来训练模型、实现准确性所需的实施时间长,以及遵守有关数据共享的复杂法律政策。那么,数据中心如何克服这些挑战呢?没有万能的解决方案。企业需要从AI路线图开始。这似乎令人惊讶,但许多企业都忽略了这一步。组织需要创建一个全面的数据策略,重点关注数据可用性和获取以及数据的准确标记。接下来,使用具有企业级性能的机器学习模型,以便机器学习轻松扩展。使用数据中心基础设施自动化和容器化算法训练。同样,这变得易于扩展。关注数据质量,为人工智能试点建立卓越测试中心或类似结构。这需要考虑企业的相关技术技能、专业知识和能力。帮助将试点扩大到更广泛的应用将产生更大的影响。数据中心需要重新设计它们在不断变化的环境中的运作方式。在当今的互联社会中,数据中心需要不断突破机器学习的界限,以免在竞争中落后或不知所措。
