人工智能是数字经济高质量发展的引擎,是新一轮科技革命和产业变革的重要驱动力。习近平总书记指出,人工智能是引领本轮科技革命和产业变革的战略性技术,具有很强的溢出效应,具有“领头雁”效应。加快发展新一代人工智能,是我们赢得全球科技竞争主动权的重要战略手段。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》也做了相关部署。人工智能计算中心作为人工智能算力基础设施,在全球范围内受到广泛重视。中国、美国、欧洲、日本等国家和地区都在积极推进人工智能计算中心建设。当前,人工智能计算中心发展面临新形势。一方面,人工智能的发展对算力的需求不断增加,以鹏程盘古为代表的超大规模预训练模型开始赋能各行各业;另一方面,在国家“双碳”战略下,计算中心加强整体建设,提高利用率,进一步减排降耗。君子豹变,其温韦也。新形势下,人工智能计算中心正在悄然“变”,走向网络化、集约化,将实现算力、大模型、数据集、行业应用等人工智能要素的流动和共享,已成为满足新需求的重要方式。人工智能计算中心不再是一个独立的系统,而是逐步走向互联互通的算力网络,这将深化人工智能计算中心的高质量建设,是人工智能下一步发展的新形态新范式。人工智能计算中心。新的网络技术将分布在各地的人工智能计算中心节点连接起来,形成一个感知、分配、调度人工智能算力的网络,可以更好地汇集和共享算力、数据、算法资源,更好地满足我的需求。国家的经济和社会需求。高质量发展的新要求。推动人工智能计算中心网络高质量发展。人工智能计算中心及其网络建设具有技术实现复杂、建设周期长、资源投入巨大、产业辐射面广等特点。为适应我国经济高质量发展需要,进一步推动人工智能集约化、普及化、低碳化发展,我国需要进一步加强战略规划和政策保障,开展系统性组织机制和制度创新,加强关键核心技术研究和标准化建设,加快推进人工智能计算中心向高端优质网络发展。统筹推进计算中心高质量建设。在确保已建成人工智能计算中心高效运行的同时,要坚持以应用为导向,坚持自主创新技术路线,加强人工智能计算中心建设。持续推动计算中心高效运行和可持续发展。已建成的人工智能计算中心要加强洞察人工智能产业发展现状和调研算力需求的能力,继续落实算力普惠政策,为产业提供普惠算力服务用户、应用开发公司、科研机构、高校等等。联合产业组织编制人工智能应用场景项目机会清单,向人工智能企业、高校、科研机构公开发布。一批有影响力、实用性强的应用示范项目将围绕大模型形成产业集群,进一步带动产业智能化升级。坚持走自主创新技术路线,推进开放开源。在当前日益复杂的国际竞争环境下,在推进人工智能计算中心建设过程中,需要继续坚持自主技术路线,进一步加强政策支持,广泛吸引产业各方参与学、学、研、用,共同提高供应链相关产业链现代化水平。同时,坚持走自主创新的技术路线,并不意味着我们自满、闭门造车。在着力掌握核心竞争力的基础上,仍需以积极开放的态度拥抱开源开放,推动形成全球范围内共建共享的人工智能算力和创新生态.有序推进人工智能算力网络建设当前,为适应新形势要求,推进人工智能算力网络建设,迫切需要做好以下三方面工作.鼓励京津冀、长三角、粤港澳大湾区、长江经济带等人工智能发展基础较好的重点区域率先发展人工智能算力网络,有序推进人工智能各地计算中心加入算力网络,探索推广算力跨网结算机制,降低算力网络使用成本。重点领域先试先试,有序推进。在京津冀、长三角、长江经济带、粤港澳大湾区、成渝经济圈等人工智能创新资源集聚、产业紧密衔接的重点区域,节点城市可以对等连接,也可以由一方牵头,预先形成算力网络,实现资源交换和共享。在节点间自发互联、资源共享的基础上,随着更多网络互联和节点的加入,积极做好相关制度安排,探索形成全国算力网络统一规划、统一管理的体制机制。鼓励人工智能计算中心加入算力网络,降低算力网络使用成本,促进算力跨网结算;通过政策保障和资金支持,鼓励不同运营主体的人工智能计算中心加入算力网络,突破资源流动壁垒和地域壁垒的现实。探索建立跨算力网络结算机制,解决AI因子评级、定价、计费、传输、记账、监控、交易等机制建设问题,推动算力、数据和生态服务实现可信交易,整合多方、异构资源,实现供需灵活对接,资源统一管控,在满足用户业务需求的同时实现资源利用率的整体优化。加强人工智能算力网络核心技术研究目前,我国人工智能算力网络技术尚处于发展初期,需要加强对人工智能等关键技术的研发部署和资金保障。高效网络传输、算力调度和联通,引导相关企业和科研机构加大投入,共同攻关。同时,在现有用电技术和管理水平的基础上,进一步加强绿色能源技术的研发和应用,提高用电水平,确保低碳可持续发展。破解算力网络关键核心技术难题,加大攻关资金保障力度。发展高效网络传输技术,着力解决高带宽低成本传输、低时延低抖动连接、信息安全等问题,满足海量数据传输和分布式计算需求。开发适用于算力网络的调度器技术,实现作业调度层面的互联互通,构建多层次的算力调度系统层,实现全网算力与网络的调度匹配,形成“计算算力操作系统”,将整个网络上的算力节点集成到一个统一的系统中。围绕上述关键技术问题,通过引进相关科技专项等方式,联合计算技术、网络技术等多技术厂商和科研机构共同攻关。以低碳绿色技术为牵引,优化人工智能算力利用率和能耗。围绕人工智能计算中心和算力网络可持续发展,加强绿色能源技术研发和应用。在技??术研发方面,出台政策带动节能技术成为算力技术研发的重点方向,积极采用绿色新能源和能效技术。在规划建设方面,人工智能计算中心应尽可能靠近能源丰富、便于自然散热的地区,更多使用可再生能源,推广采用集成柜、液冷等先进散热方案。冷却。推进人工智能算力网络标准化在推进人工智能算力网络建设过程中,算力网络一体化标准非常重要,需要积极推动建立统一算力网络标准,形成包括算力网络架构、节点互联标准、应用接口标准、人工智能数据集接口标准等在内的标准体系,兼容多元化算力、开发框架等软硬件平台,促进AI要素在物联网上的开放共享算力网络。包括以下三个方面的工作。支持多样化算力,形成可迭代、可替换的硬件标准体系。国内多家厂商纷纷投入AI算力研发,逐步形成了自主创新的技术力量。不同厂商建设的人工智能计算中心提供的算力资源包括各种不同类型的指令集和不同架构的异构硬件,如CPU、NPU、GPU等,不同的指令集和不同的架构具有不同的优势和缺点。适应不同的场景。人工智能计算中心网络在支持多样化算力的过程中,需要适配不同厂商的基础硬件架构,同时支持不同厂商硬件的迭代和替换,提高通用性和易用性计算能力基础设施层的使用性。坚持开放兼容,推动构建运营商、框架、平台多层次互通的软件标准体系。在人工智能计算的发展过程中,形成了各具特色和优势的算子库、框架和使能平台,并拥有自己的用户群体。算力网络需要支持多个算子库、多个人工智能开发框架、多个使能平台等基础软件。开发者可以根据场景和需求,使用不同的框架和赋能平台。加快跨厂商算子库、框架、使能平台等多层次标准建设,将人工智能开发软件系统分层解耦,层与层之间接口统一互联,最终形成平台上的开放编程。计算能力网络环境和编程接口标准。着力满足场景应用的联合创新需求,推进互联互通、应用、人工智能数据集接口标准建设。为解决算力感知调度、区域协同联合应用创新、数据聚合共享等技术难题,面向计算与服务感知、互联互通与资源管控调度、应用场景联合创新,重点推进算力提升网络架构和接口、应用程序和计算能力。力感知接口、计算量化与建模、人工智能数据集接口、资源可信与协同的标准化建设。人工智能算力网络作为计算中心的一种新形态、新范式,让科研创新更高效,让人工智能与产业融合更深入,共建资源、共享资源、共同发展、共同发展。推动AI产业发展。人工智能算力网络作为一种新型基础设施,让各区域资源共享,促进人工智能技术生态和商业生态的发展,加速新的科学发现,推动新的应用场景,发现产业新方向,孵化新的产业新方向。发展思路,为数字经济发展提供平台。驱动力是建设中国人工智能数字化基地,发挥人工智能在中国共创共同富裕新格局中的引擎作用。下雪了!算力跨计算中心调度、大规模模型研究和行业跨区域创新协同、人工智能生产要素流量共享等新需求催生了人工智能算力网络。人工智能算力网络将分布在各地的人工智能计算中心的节点连接起来,形成一个在多个计算中心之间感知、分配和调度人工智能算力的网络。在此基础上,汇聚共享算力、数据、大模型等算法资源,是人工智能计算中心进一步发展的重要方向,将有助于推动区域乃至全国人工智能产业的建设生态网络。随着5G、人工智能、云计算、大数据等新一代信息技术在各行业的广泛应用,行业应用的多样性带来了数据和算力的多样性。未来,人工智能算力网络将进一步连接高性能计算中心和综合大数据中心,演化为多元化的算力网络,满足数字技术跨应用的广泛需求。人工智能算力网络是通过网络新技术连接全球人工智能计算中心,集聚算力、算法、生态等创新资源,释放人工智能产业赋能能力的新范式。通过算力网络建设,打造中国信息基础设施数字化基地,实现“共建算力、共享资源、共同发展”的愿景。人工智能算力网络的核心思想是通过新的网络技术将分布在各地的人工智能计算中心节点连接起来,实时动态感知算力和网络资源状态,进而协调分配和调度计算任务形成感知网络、决策网络、分配网络、调度算力网络,在此基础上汇聚共享算力、应用、数据、算法资源。是多资源、多样化异构算力深度融合、人工智能赋能能力释放的新范式。人工智能算力网络将算力资源从单一计算中心的统一分配转变为任务和资源在所有计算中心之间的统一调度。过去,人工智能算力中心由企业、科研机构异地建设和使用。就像私家车一样,大家自己购买、保养、使用。从全球范围看,车辆使用率低,使用成本高。.协调人工智能与其他计算中心的建设,可以实现资源的统一分配和计算任务的排队管理。就像出租车一样,车辆都是出租车公司集中采购,车辆统一分配。用户排队打车,出租车利用率高。成本降低,但用户用车需要排队,高峰期需要等待,闲置的社会车辆无法利用。人工智能算力网络统一管理所有计算中心的算力需求,公开共享和分发数据、算法、应用资源等,实现全网效率最大化,拓展应用和应用空间创新。就像现在的互联网用车平台一样,加入平台的车辆资源是统一按需分配的。用户在用车平台申请用车时,可以使用全网车辆资源,用车更快捷,进一步降低时间和成本的综合成本。减少,全球资源利用率是最优的,可调度的,协作的,融合的,可共享的,最大化网络价值。从计算中心到算力网络,满足国家“双碳”目标的新要求。节能减碳若干意见,把“加强数据中心绿色高质量发展”作为重点工作,鼓励重点行业利用绿色数据中心等新型基础设施,实现节能降耗。新建大型、超大型数据中心电源利用效率(PUE)不得超过1.3。到2025年,数据中心用电效率普遍不超过1.5。这些都对人工智能计算中心提出了进一步提高电能利用率、协调不同计算中心间算力调度、削峰填谷、细化能耗控制等要求。人工智能计算中心的总能耗比较大,而且还在增长。2019年,马萨诸塞大学阿默斯特分校的研究人员发现,训练AI模型的过程会排放超过626,000磅的二氧化碳,相当于一辆普通汽车生命周期排放量的五倍(包括汽车的制造过程)本身)。统计数据显示,2018年,中国所有数据中心的总用电量达到1600亿千瓦时,消耗5300万吨标准煤,占中国总用电量的2.5%。根据工信部2021年7月发布的《新型数据中心发展三年行动计划(2021- 2023年)》,到2023年底,全国数据中心机架规模年均增速保持在20%左右。按照目前的增速,2023年中国所有数据中心的用电量将达到2600亿千瓦时,相当于2.6座三峡大坝一年的发电量。人工智能计算中心提供人工智能计算范式所需的专用算力,配合少量通用算力进行数据预处理等任务,提供高效、低能耗的人工智能计算能力。NVIDIA测算,在完成同样的人工智能计算任务的条件下,人工智能计算中心的计算效率是传统计算中心的10倍,而能耗仅为传统计算中心的十分之一。近年来,计算中心不断降低PUE,能耗效率显着提升。主要原因有二:一是受益于统筹规划、集中建设。在世界各个地区的政策引导下,数据中心正在从小型传统数据中心向超大规模数据中心转型。二是受益于制冷、供配电等基础设施技术的不断提升。这两项措施有效降低了计算中心的PUE。2013年之前,全国对外服务数据中心的平均PUE在2.5左右,而到2019年底,全国对外服务数据中心的平均PUE接近1.6,实现了质的飞跃。虽然计算中心有效降低了PUE,但计算业务自然会有波动,仍然存在闲置能耗现象。计算中心的业务波动会导致计算能力的使用出现波峰和波谷。在低谷期,部分计算集群没有任务运行,能耗会闲置。例如,超大规模预训练模型在人工智能计算中心进行训练时,会占用计算中心的大部分算力,会持续数周或数月,形成周期性算力波动。当算力达到峰值时,算力将满负荷运行。其他计算任务排队,导致能耗处于低谷时处于空闲状态。因此,人工智能计算中心需要采用算力调度,进一步降低业务峰谷带来的闲置能耗。多人工智能计算中心协同调度。当A中心的算力达到峰值时,可以将排队的任务转移到算力谷底的B中心的算力上。从全局和长远来看,是进一步提高电能利用率、减少碳排放的有效途径。国家“双碳”目标对计算中心的能耗控制提出了更高的要求。网络感知计算应用所需的算力资源可以在多个计算中心之间通过任务调度在能效比的约束下得到优化分配。决策,从全局的角度,可以获得最优的计算效率和能耗效率。因此,算力网络将成为人工智能计算中心下一步发展的新形态、新范式。随着人工智能超大规模预训练模型的不断涌现,基于大规模模型开发赋能区域经济社会发展的行业应用需求激增,人工智能等要素进一步流动共享。人工智能数据集,以及社会对计算中心能耗控制水平不断提高的要求,促使了人工智能计算中心之间的连接。人工智能计算中心不再是一个独立的系统,而是形成一个互联的计算能力网络。多个地理分布的算力中心将连接在一起,为基于基础模型开发新型分布式融合应用提供支持。算力网络可以感知应用所需的算力和存储资源,通过任务调度满足业务需求。多个组织用户在多个计算中心共享计算能力和数据,以满足复杂应用的计算和数据处理需求。
