IT是工人,AI又来“抢”你的饭碗了,这一次从数据中心开始大数据集中利用基于AI的“智能”系统获取业务洞察力等方面。目前,虽然可自主运维的数据中心还没有像自动驾驶汽车那样成为现实,但数据中心的人工智能在技术、运维、人员等方面已经取得了诸多重大突破。有一天,人工智能(AI)和机器学习(ML)将在企业数据中心发挥重要作用。未来,人工智能可能会帮助企业创建高度自动化、安全和自我修复的数据中心。这些数据中心能够以更高的效率和更大的弹性运行,几乎不需要人工干预。人工智能提升数据中心效率、拓展业务的潜力主要体现在以下四个方面:16个城市。工作负载管理:人工智能系统可以实时自动将工作负载迁移到最高效的基础设施。这些基础设施可以位于数据中心或混合云环境中;可以在边缘环境中。电源管理:基于AI的电源管理优化散热系统,降低用电成本,减少人员配置,提高效率。设备管理:人工智能系统可以检查系统配置是否正确,监控服务器、存储和网络设备的健康状况,并预测设备何时会出现故障。AI和安全运营中心(SOC)的安全专业人员经常被大量警报弄得筋疲力尽。基于人工智能的系统可以扫描大量遥测数据和日??志信息,做一些简单的工作,让安全专家有时间进行深入调查。基于AI的系统可以检测、阻止和隔离威胁,并进行归因以确定发生了什么以及黑客能够利用哪些漏洞。这使得AI在实时入侵检测中非常有用。快速的根本原因分析可以帮助操作员做出明智的决定并采取行动。人工智能和机器学习可以通过识别重要事件并通过快速对事件进行分类和聚类将其与噪音分离,从而简化事件处理(事件响应)。除了帮助解释超出人类能力的数据外,人工智能自动化还可以帮助在优化能源使用、工作负载分配和最大限度地提高数据中心资产利用效率方面获得深入洞察。基于AI的工作负载优化无论是在本地还是在云端,应用层的AI都会自动将工作负载移动到适当的位置。例如,自动将工作负载迁移到最节能的服务器,同时确保服务器以最高效率运行(70%到80%的利用率)。AI系统还可以将时间敏感的应用程序转移到高效服务器上运行,同时确保那些不需要快速执行的应用程序不会消耗太多电量。未来,AI/ML还可以根据性能、成本、治理、安全性、风险和可持续性等因素,实时决定将工作负载迁移到何处。将电源管理与服务器工作负载管理集成人工智能的好处与良好的硬件设计的好处不同。电源管理是最容易改进的地方。这关乎生产力,关乎每BTU完成更多工作,关乎每瓦完成更多工作。它还意味着更智能地工作,以及设备是否可以更智能地工作。如果传感器检测到服务器运行过热,系统可以自动快速地将工作负载转移到未充分利用的服务器,而不会冒中断关键任务应用程序的风险。同时,系统会排查服务器过热的原因,是风扇故障(HVAC问题)、物理组件故障(设备问题),还是服务器过载(工作负载问题)。AI系统还可以通过将HVAC系统数据与环境传感器数据相关联来了解设施的当前状态。例如,基于人工智能的系统可以帮助数据中心经理了解当前或潜在的冷却问题。HVAC机组性能不佳、冷热通道之间的风量不足以及由于机架密度高阻碍气流而导致的冷空气输送不足等问题。容量规划也是一个可能需要改进的领域。除了寻找热点和冷却点之外,AI系统还可以确保只有适当数量的物理服务器由数据中心供电,如果出现临时需求激增,系统还可以启动新的物理服务器服务器以增加可用容量。许多公司之所以大力研究数据中心电源管理,一方面是为了省钱,另一方面也是为了承担起环保的责任。统计数据显示,数据中心消耗了全球3%的电力供应,并造成了约2%的温室气体排放。谷歌在2018年宣布,将旗下多个超大规模数据中心的冷却系统控制权交给了AI程序控制,AI算法提供的建议使功耗降低了40%。运行状态监控和配置管理监督包含大量组件的IT机柜是一项劳动密集型工作,因此检查可能不及时和彻底。健康监控检查设备是否正确配置并按预期运行。数据中心内还有许多物理设备需要定期维护。人工智能系统不仅可以对这些物理设备进行定期维护,还可以收集和分析遥测数据,以帮助识别需要立即关注的特定区域。基于大量传感数据日志的预测性设备故障建模可以识别即将发生的组件或设备故障,并评估是否需要立即维护以避免服务中断。AI系统最终可能会“告诉我出了什么问题,我会解决它”,但即使是这样,许多数据中心运营商也可能只是接受“如果出现问题,告诉我解决它”。只要在任何地方检查它。”保持设备平稳安全运行的另一个重要部分是控制“配置漂移”。人工智能充当“额外的安全检查”,可以帮助识别由于配置引起的数据中心问题。(注意:配置漂移是一个数据中心术语,指的是随着时间的推移可能会导致一些问题的临时配置更改。)部署AI的挑战优化和自动化数据中心是数字化转型计划不可或缺的一部分。COVID-19大流行导致许多公司寻求数据中心的进一步自动化,使数??字数据中心能够由人工智能和自我修复提供支持。这使得人工智能在数据中心具有广阔的应用前景。一些AI/ML功能可用于事件处理、基础设施健康和热优化。尽管如此,要使AI/ML模型超越当前的标准数据中心基础设施管理(DCIM),还需要更多突破和更多时间。这与自动驾驶汽车的发展非常相似,早期阶段可能非常有吸引力,但距离最终承诺的颠覆性经济/商业案例还很远。AIOps平台的成熟度、IT技能和运维成熟度都是主要的挑战。更高级别部署的挑战还包括数据质量以及IT基础设施和运营团队缺乏数据科学技能。此外,需要雇用或培训合适的人员来管理系统,以及需要数据标准和相关架构,这些都是部署AI时面临的挑战。但自始至终最大的挑战是人。各种基础设施的运维人员正准备将权力下放给AI。但是,如果人们不信任做决定的决策者,那么在如此大规模的转型过程中,您如何培训和安抚人们?在过渡期间,人们普遍认为,如果他们这样做,你会丢掉工作吗?不仅聘请有经验的数据科学家对许多企业来说是一个挑战,甚至培训现有员工也是一个挑战。因为企业员工有抵制科技的悠久传统。以软件定义网络(SDN)为例。SDN推出已有十年,但仍有超过3/4的IT运维仍在使用命令行界面。
