当前位置: 首页 > 科技观察

算力网络是什么样的“网络”?

时间:2023-03-22 14:04:41 科技观察

近日,国家发改委、中央网信办、工业和信息化部能源局同意启动国家综合算力网络国家枢纽节点建设。粤港澳大湾区、成渝地区、长三角地区、京津冀地区。国家综合算力网国家枢纽节点是我国算力网的骨干节点。为什么我国如此重视算力网络建设?这还要从算力网络本身说起。我们知道算力网络要解决什么问题,小到个人手机、PC,大到超级计算机、数据中心。计算能力存在于我们生活的每一个角落,已经成为基础核心资源之一。但是,一方面,随着当前算力的普及,算力的使用率大幅下降。统计显示,各类算力终端的使用率甚至低于15%。以PC为例,有些家庭的PC不止一台,但并不是每台PC都得到充分利用,大部分时间都是闲置的。而企业的私有数据中心和科研机构的超算中心更是闲置。另一方面,随着技术的进步,物联网正在走向成熟的应用。当前,智慧城市、智能家居等物联网应用日益普及,万物智能互联产生的数据量不断增加。相应地,对计算资源和计算能力提出了更高的要求。云计算作为随时获取、按需使用、随时扩展的软硬件平台,在一段时间内充分满足了物联网终端设备的资源预期,成为物联网的主要支撑技术。.但市场和技术的发展也带动了物联网终端数量的快速增长,随之而来的是数据计算上云的需求。设备不断产生实时数据,越来越多的数据集中在云端,而云计算数据中心的增长速度远远落后于数据处理需求的增长速度。终端设备可从云端获取的内存、CPU、带宽等计算和通信资源开始紧张,导致市面上智能终端设备的实时数据处理能力不足,难以支持新的数据处理技术,如人工智能和其他计算需求。因此,即使对于很多科研人员和企业研发人员来说,算力仍然是一种“奢侈品”:不仅获取成本高,使用门槛也高。例如,在计算流体动力学(ComputationalFluidDynamics,CFD)领域,模拟一个发动机叶片需要1000个核计算一周。目前的算力平台显然无法支持发动机的全仿真计算。而要搭建一个能够满足要求的算力平台,可能需要一到两年甚至更长的时间。对于很多机构来说,自建算力平台是难以承受的,无论是时间成本还是财务成本。这说明单纯依靠传统的云计算已经不能满足物联网发展多样化、智能化的需求。因此,以边缘计算为代表的新一代分层算力网络架构应运而生。所谓边缘计算,是相对于集中部署、远离用户端的云计算,更强调将计算能力部署在靠近客户业务端的平台,实现高效的本地处理。分层算力网络架构的核心是将数据处理过程分散在网络架构各层级的设备之间,而不是集中在网络中心的云计算数据中心。然而,虽然从云计算服务向边缘计算扩展成为业界重要的发展思路,但在实际运营中却存在规模与成本的悖论。在传统云计算的商业模式中,规模效应非常关键。云计算服务商需要不断扩大云计算池,通过集中建设、定制化设备使用、智能化运营等手段,共享各类基础设施,降低数据中心PUE(PowerUsageEffectiveness,能耗效率),从而降低单位算力的建设成本和维护成本,从而在激烈的市场竞争中取得优势。据不完全统计,超大算力资源池的单位算力成本仅为普通算力池的10%~30%。因此,云市场的头部效应非常明显。比如国内排名第一的云服务商,占据了50%左右的市场份额,而且是越做越大做强。然而,在强调分布式的边缘计算领域,节点规模受到严重限制。绝大多数边缘计算节点位于靠近用户的网络边缘,分布在各种环境中,如电信运营商的接入机房、电力公司的变电站、住宅物业的备用房间等。这些节点的空间有限,能够容纳的计算资源有限,不具备持续扩展的潜力。因此,不可能通过规模经济来降低成本。从维护机制来看,云计算节点由于设备高度集中,可以采用大量的智能化运行方式。例如,机器人可以用于机房巡检,可以大大降低人工成本,提高运营效率。然而,这样的解决方案不适用于边缘计算节点。在很多离散的边缘机房,部署大量智能操作系统的收益很低,投资成本甚至高于机房所能容纳的设备成本。同时,这些智能操作系统本身也需要细致的运维工作,出现问题的频率甚至高于机房其他类型的设备。短期内,面对大量边缘机房,使用大量人工进行日常巡检是唯一的解决方案。这也是一些云计算服务商和电信运营商的运维人员数量相差几个数量级的重要原因。因此,在涉及大量边缘计算节点的边缘计算中,不宜采用类似云计算节点的建设和运营模式,需要新的商业模式和技术体系,让更多的参与方参与算力资源报价和交易过程来了。幸运的是,随着5G、全光网络(网络传输和交换过程全部通过光纤实现)、SDN(Software‖Defined‖Network,软件定义网络)等网络技术的发展,网络不再是瓶颈,并且用户可以链接到资源池。因此,在新技术的支持下,一种解决方案应运而生:通过网络分发算力资源信息,在算力资源提供者和算力消费者之间搭建一个交易平台,这就是算力网络。算力网络≠云网融合有人可能会认为,所谓算力网络就是目前正在做的云网协同(也称云网融合、云网融合等)?其实两者还是有区别的。从资源匹配的角度来看,算力网络和云网协同可以将算力资源信息与网络资源信息进行匹配,实现多类资源的联合优化。例如,在现有的云网协同方案下,用户可以先选择一个云服务节点,然后根据云服务节点与用户接入节点之间的网络情况选择最佳路径;云服务节点,然后选择连接路径。粗略地说,算力网络在做什么上没有太大区别,但云网协同和算力网络在本质上有很大区别。云网协同的核心是以云为中心,根据云服务的特点调整网络连接,也称为“网随云动”。有两种常见的方法。一是网络向云管理系统开放能力,由云管理系统统一调度计算资源、存储资源、网络资源等;另一种是云管理系统向网络控制单元发送网络请求。例如网络协同编排器等,网络控制单元根据云服务的需求对网络进行调度。显然,关键是先选择云服务,再确定网络连接。因此,一个云服务提供商可以连接多个网络,甚至可以使用SD-WAN(Software-DefinedWAN,软件定义广域网)等技术实现跨越不同网络运营商的跨域连接。算力网络从另一个角度解决了这个问题。算力池将其闲置的算力资源信息发送给网络控制面,再通过网络控制面(集中式控制器或分布式路由协议)分发算力信息。接收到用户的业务需求后,通过分析路由表中记录的网络信息和算力信息,选择最合适的算力池和网络路径。显然,算力网络需要先选择网络,再选择算力池(云计算服务节点或边缘计算服务节点)。如果只有一个网络服务提供商,只有一个云服务提供商/算力提供商,那么云网协同和算力网络没有太大区别。但在现实中,网络服务商有很多,云服务商/算力商就更多了。这时候,云网协同和算力网络的区别就比较大了。在云网协同解决方案中,用户首先选择一个云服务提供商,甚至是特定的云资源池或边缘计算节点,然后可以在多个网络服务提供商中选择最合适的网络连接产品和最优的网络路径。在算力网络解决方案中,需要先确定网络服务提供商,然后根据业务对时延、网络状况等指标的要求,从多种算力资源中选择最合适的算力节点。简言之,云网协同是“一云多网”,而算力网络则是“一网多云(计算)”。算力网络我们还要等多久不过,虽然算力网络的前景值得期待,但从2019年到现在,业界对算力网络的研究已近三年,但它不得不说,目前算力网络的发展还处于起步阶段。算力网络并不是简单地在网络上分发算力信息。还需要与算力交易、在线下单等业务进行关联,形成系统架构,解决两个层面的问题:一是资源关联,根据用户需求,将算力资源和网络资源有机整合,满足多样化的需求用户;二是资源交易,允许用户在算力交易平台上根据自己的业务需求和可承受的成本,在线购买最合适的算力资源和网络资源。因此,算力网络系统必须能够包含算力消费者、算力提供者、网络运营商、算力网络交易平台、算力网络控制面等诸多主体。算力网络系统的内容,图片来源@网络同时,算力网络若要落地,还需要在多个技术领域进一步突破。中国移动的算力网络技术图谱,图片来源@网络目前,算力网络的研究工作主要集中在以下几个方面。(1)计算能力。目前,计算资源的度量缺乏统一、简单的度量单位,如何评估不同类型计算资源的大小成为亟待解决的问题。(2)信息发布。信息分发是指如何通过网络控制平面发布算力等资源信息。(3)资源视图。如何为每个用户生成一个以用户为中心的资源视图,让他们智能地选择最佳的资源组合,也是需要关注的事情。(4)可信交易。由于算力网络中的各种资源属于不同的所有者,算力网络作为中间平台,需要考虑如何保证资源交易的真实、有效和可追溯。其中,包括算力计量在内的算力网络底层基础技术尚未取得真正的突破。因此,从算力网络概念到真正成熟推广,估计至少需要5年时间。总而言之,算力网络值得我们关注,但仍需冷静对待。这也是我们对其他新技术的态度:既不忽视也不盲从。参考资料:雷博,陈云清等.边缘计算与算力网络:5G+AI时代的新算力平台与网络连接[M].北京:电子工业出版社,2020.11