当前位置: 首页 > 科技观察

腾讯清华发布新基建领域最新成果:数据中心电池设备AI诊断服务

时间:2023-03-19 13:38:18 科技观察

本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处用于转载。近日,腾讯数据中心与清华大学自动化系智能网络中心团队成员贾庆山的联合论文被第21届IFAC国际自动控制世界大会录用。该会议是自动控制领域三大顶级会议之一,将于今年7月在德国柏林举行。本次会议将聚焦可持续资源、绿色能源、数字化和工业4.0等主题。人工智能、控制与计算机科学日益重要的融合也将成为大会关注的焦点。腾讯联合团队提交的论文全称是PredictiveMaintenanceofVRLABatteriesinUPStowardsReliableDataCenters(中文名称:PredictiveMaintenanceofVRLABatteriesusedbyUPStowardsReliableDataCenters)。据介绍,本文提出的电池故障检测方法填补了业界以往对UPS(UninterruptiblePowerSystem,不间断电源)电池数据驱动预测性维护研究的空白。与目前基于专家经验、阈值规则等判断的检测方法相比,具有更高的准确率,同时能够提前预警电池健康状态,有效提升数据中心的智能化管理水平.是人工智能技术在数据中心应用的一个生动例子。最新成果:数据中心电池设备AI诊断服务"src="https://s1.51cto.com/oss/202003/27/387dc75cd06faa5abd73ba7be885f70d.jpeg"_fcksavedurl="https://s1.51cto.com/oss/202003/27/387dc75cd06faa5abd73ba7be885f70d.jpeg">据了解,研究成果还整合形成了电池AI诊断服务,承载于腾讯自主研发的数据中心智能运维平台——腾讯智微,成功支持腾讯神山数据中心电池健康管理服务交付已覆盖腾讯自建数据中心数万块电池,未来将全面覆盖腾讯数据中心数十万块电池,并向行业合作伙伴开放.通过人工智能对数据中心电池进行预测性维护UPS供电系统是满足数据中心供电质量的核心部分,而电池是UPS系统最重要的部件之一,是整个供电的“最后一道屏障”系统。在UPS系统的故障中,与电池相关的原因占30%以上。如果电池故障导致UPS系统宕机,关键业务中断,将造成巨大的经济损失。据行业调查机构称,金融行业数据中心的损失为每小时停机1,495,134美元,通信行业数据中心的损失为每小时停机2,066,245美元。因此,通过科学的运维管理,对电池系统进行监测维护,及时发现故障隐患,及时维护更换,将大大提高数据中心持续运行的可靠性。UPS系统中使用的电池面对数据中心的上千块电池,通过人工智能自动化进行检测和维护,可以大大提高效率。但在现实中,要在电池故障预测中实现AI并不容易。首先,由于日态UPS所使用的蓄电池通常工作在浮充状态下,因此监测数据的信息量远小于放电测试采集的数据。其次,没有统一的电池更换标准,现有的维护策略依赖于专家知识。第三,与电池故障相关的数据量不足,使得寻找高质量模型的任务具有挑战性。此前业界对数据驱动电池寿命预测的研究也主要集中在电动汽车电池等可回收电池上。之前一直没有对UPS和其他通常处于浮置状态的电池进行健康管理的研究。针对这些问题,腾讯清华大学联合团队依托腾讯知微平台提供的海量数据中心运行数据,研究了一种数据驱动的UPSVRLA电池预测性维护新技术。据介绍,为了提高数据采集和标注效率,团队首先提出了一种算法,可以针对电池自然老化和内部快速衰减两种情况自动标注电池退化时间点,以及电池内阻和电压异常度自动标注,避免了数据标注过程中的重复和繁重的人工劳动。然后,针对电池监测数据数据量大、数据维数低的问题,应用特征工程技术扩展数据维数。在完成特征工程后,研究人员训练了逻辑回归、随机森林、梯度提升决策树和人工神经网络模型来预测电池是否会失效。实验结果表明,AI模型预测故障电池的准确率为98%。与现有基于阈值的判断规则相比,AI模型平均可以提前15天预测电池故障。目前,上述研究成果已由研究团队整合形成电池AI诊断服务,并在腾讯自主研发的数据中心基础设施管理软件平台——腾讯智微平台上发布实施,覆盖数万块电池在腾讯自建的数据中心。该服务可以方便地集成到现有的电池管理服务中,对采集到的电池电压、内阻和温度数据进行自动分析和预测。现场专家工程师持续跟进验证AI故障诊断效果。验证结果表明,与原有的电池维护策略相比,AI诊断服务可以更准确地提前预测电池的故障状态,也可以检测出超出专家知识范围的潜在电池故障,使运维数据中心的工程师可以更有针对性地规划电池的维护和更换,有效提升电池运维效率,进一步保障数据中心的可靠性。腾讯天津数据中心3号楼6880电池现场验证发现,电池健康管理服务可实现96.2%的告警准确率,告警时间比实际故障提前5~30天,比传统的好多了。基于经验规则的分析方案。目前,腾讯团队正在逐步扩大实施范围。未来,通过智微平台,将实现腾讯数十万块电池的业务覆盖。据了解,腾讯知微平台由服务于腾讯的行云平台升级而来。它是自主研发的数据中心基础设施管理软件平台,融合了腾讯近20年的数据中心运营经验和智能化、云化技术。通过腾讯智微平台,可以在数据中心实现智能告警、智能巡检、智能容量分析和透明的客户体验,为统筹管控、精细化管理、优化运营成本提供依据。它还为技术专家提供了实时、异地处理告警和数据中心无人值守的可能。可以帮助客户360°掌握数据中心的运营情况,不断提升运营质量和效率,减少成本投入,实现数据中心价值最大化。腾讯知微平台就像是数据中心的“大脑”,赋予了腾讯数据中心精良的感知能力和快速迭代演进的能力。目前,腾讯知微平台已部署在腾讯80多个大型数据中心,覆盖全球12个国家和地区,运营管理服务器超过100万台,测点超过600万个。同时,腾讯知微还与重庆电信、广东电信等运营商以及银行、证券等各行业客户达成合作关系。据了解,在腾讯智微平台接入部署后,重庆电信能源消耗优化提升约30%,每年节省电费超过100万元。腾讯携手高校,推动新基建领域的技术创新与应用。计算所与北京大学、华中科技大学、中国人民大学、南京大学、西安交通大学等多所知名高校建立联合实验室,开展产学研合作与许多领域的专家。2016年,腾讯IDC平台部与清华大学自动化系智能网络中心团队赵千川、贾庆山、夏力在数据中心自动化运维领域建立产学研合作关系。研究工作围绕提高数据中心运营质量、降低运营成本和提高运营效率三个目标展开。经过双方多年的不断努力,已发表高质量学术论文6篇,输出发明专利7项。腾讯数据中心与高校专业研究团队的合作研究,不仅仅专注于电池健康管理的研究。在数据中心智能告警方面,课题组提出了多维度的告警预警分析方案,融合设备状态和设备技术,采用多传感器融合和专家知识等方法,分析根因数据中心告警数据关联。汇聚数据中心告警风暴,有效减少冗余告警信息,实现对数据中心设备的精准告警和预警,海量告警场景告警溯源定根,帮助现场工程师快速定位故障,有效提升现场报警的准确性和响应效率。该方案已应用于腾讯知微平台,在腾讯近百个数据中心提供实战支持。在数据中心节能方面,研究团队利用AI技术构建数据中心能效预测模型,实现数据中心能效准确预测,为数据中心能效影响因素提供解释服务,并根据数据中心能效自动优化。能效预测模型智能分析,输出节能优化建议。该解决方案已在腾讯天津数据中心4号楼完成一期落地验证,取得了良好的节能效果,证明了AI技术在数据中心节能方面的应用价值和巨大潜力。随着相关研究的不断深入,腾讯与清华大学将在腾讯知微平台上发布更多研究成果,推动平台由自动化向智能化发展。如今,数据中心智能化已成为其主要发展方向。数据中心作为所有互联网业务的基石,在人工智能技术的驱动下,运维管理正在发生重大变革。作为全球领先的互联网公司和全球IaaS市场增长最快的云计算厂商之一,腾讯全网拥有超过110万台服务器。拥有超过一百万台服务器的公司之一。在此背景下,腾讯数据中心围绕“降本增效”的核心诉求,不断整合自身资源和经验,加快构建面向基础设施层的自研技术体系。2020年3月4日,在中共中央政治局常务委员会召开的会议上,决策层强调,要加快推进已建成的重大项目和基础设施建设。国家规划明确,包括5G网络、大数据中心、人工智能等新技术。基础设施建设成为备受关注的方向。人工智能作为新一轮产业变革的核心驱动力,正在释放历次技术革命和产业变革积累的巨大能量。不断探索人工智能技术在数据中心的应用,以人工智能赋能数据中心,将极大推动数据中心由自动化向智能化发展,也将推动数据中心快速适应新型智能业务需求。