当前位置: 首页 > 后端技术 > Java

新一代音视频架构在元界场景的实践

时间:2023-04-01 20:22:45 Java

背景介绍元界的发展元界的发展始于1992年,其发展大致分为两个阶段,一个是初期阶段,从1992年到2020年。二是探索阶段,从2020年至今。元界热点技术元界热点技术主要包括以下六大技术:区块链技术:NFT、DeFi、公链极速、智能合约、DAO社交系统、去中心化交易所、分布式存储等区块链技术是最重要的支撑技术元宇宙系统。物联网技术:为元宇宙万物互联、虚实共生提供可靠的技术支持。网络与计算技术:纵观发展史,通信网络(传输速率)的提升一直是主旋律。通信网络和云游戏的成熟,夯实了元界网络层面的基础。人工智能技术AI:为元界大量应用场景提供技术支持。视频游戏技术:游戏是元界的呈现方式,交互灵活,信息丰富,为元界提供创意平台、互动内容和社交场景,实现流量聚合。交互技术:交互技术不断迭代升级,感知交互不断深化,为元界用户提供沉浸式虚拟现实体验阶梯。对音视频架构的挑战在元宇宙场景中,我们看到了很多音视频技术的元素,比如游戏语音、低延迟流等,很多能力都涉及到音视频领域。于是我们回过头来思考我们自己的音视频产品,总结出需要做些什么来支持元界业务的发展。或者说,元宇宙的发展会给音视频架构带来怎样的挑战:“驱动技术创新,提供极致的沉浸式交互体验”。简单的视频通话、语音聊天以及实时交互等交互方式,远远不能满足新兴的元界业务。3D头像社交、实时语音3D音效等关键技术已经成为不可或缺的组成部分。驱动这些技术的创新和优化,突破原有音视频领域的相关技术边界,为用户提供极致的沉浸式体验,成为我们音视频架构的强大挑战。“推动多业务融合,提供整体解决方案。”元界中的大部分音视频业务都是综合性、复杂的应用场景。比如很多业务会有RTC、虚拟人、超低延时数据传输、低延时直播等丰富的需求。由于不同场景的需求需要独立集成相应的能力SDK,而每个SDK的集成或接入方式不同,导致需要接入的SDK数量多,复杂度高,接入效率低。因此,如何设计好的SDK架构,在提供高可用、高稳定的业务功能的同时,能够通过技术组合将所有服务集成在一起,为用户提供整体的一站式解决方案成为音视频平台。对建筑的全新挑战。打造新一代音视频引擎的首要挑战是“驱动技术创新,提供极致的沉浸式交互体验”。我们专门对云信的音视频引擎进行了架构升级和能力补充,主要包括以下三个部分:音视频引擎架构设计、超低时延数据传输架构设计、算法组件架构设计。音视频引擎架构设计在音视频引擎架构设计方面,我们推出了网易云信的新一代音视频引擎NERtcEngine。NERtcEngine主要包括“视频引擎、音频引擎、网络引擎、数据引擎和算法组件引擎”五个核心引擎。相比老一代的引擎架构,我们充分考虑了元界场景下的超低时延数据传输场景,设计并实现了数据引擎。同时,在元宇宙场景的沉浸式体验中使用了很多新的音视频算法和AI算法,驱使我们对算法集成方式进行重大重构,设计并实现基础算法组件引擎,使我们可以更灵活高效地管理引擎使用的各种算法。新的音视频架构如图所示。我们将原有的视频、音频和网络相关的核心模块进行了抽象和组织,统一到引擎层,并在引擎层增加了数据引擎;同时,我们设计并实现了基础算法组件引擎,最终的架构层次有四层:接口层、引擎层、算法层和基础层。接口层:对外提供音视频能力的接口层。引擎层:封装了视频引擎、音频引擎、网络引擎和数据引擎的主要流水线流程。算法层:新增基础算法组件引擎层,负责管理和维护引擎内部使用的所有音视频算法。基础层:日志、埋点上报等基本都依赖库层。其中,架构图中黄色高亮部分,就是我们今天要重点关注的两个部分。超低延迟数据传输架构设计设计数据引擎的目的主要是为了实现超低延迟数据传输场景。这个过程其实是一个涉及引擎、网络、服务器的复杂过程。数据引擎主要负责“传输协议的实现,发送/接收的策略控制,以及包括网络QoS调整策略等整个流水线的实现”。然后我们的WE-CAN大网络负责提供“一个低延迟的全球智能路由网络,提供专线级数据传输通道”。那么这样做有什么好处呢?整体架构上设计了独立的数据传输通道。第一,可以保证原有音视频传输通道的稳定性和效率;还可以自主制定和适配数据传输通道相应的传输协议、发送/接收控制策略、QoS调整策略,完全独立于音视频相关策略,针对性优化数据传输业务场景。一个典型的例子就是在虚拟遥感控制场景中,我们需要持续传输和交互超低延迟的工业控制指令,这就需要一个从发送端到网络到服务器再到网络最后到接收端的一个整体.数据传输通道。算法组件引擎架构设计随着元界业务支撑过程中不断引入各种新的音视频算法和AI算法,新旧算法的共存兼容,以及新算法模型对SDK包大小的影响,等等,给我们的算法库管理带来了很大的挑战。所以本质上,这个算法组件引擎是对我们基本的算法库管理方式的重构。它具有三个主要特点:统一的外部集成接口:所有算法统一接口,集成方式非常友好。支持插件集成:每个算法以插件的方式集成为一个独立的单元,可以灵活实现算法的定制化集成,精确控制SDK的包大小。可扩展性强:后续的新算法只需要实现几个相应的集成API,就可以方便快捷的集成到框架中。比如我们现在设计了四个接口:初始化,参数设置,处理,去初始化。只要实现这四个接口,新算法就可以集成到我们的算法组件引擎中。构建新一代音视频SDK元界业务的发展给我们的音视频架构带来的第二个挑战是:“推动多业务融合,提供整体解决方案”。这是一个非常全面和复杂的技术挑战。针对这个挑战,我们也重点做了三件事情:“集成SDK架构设计、SDK插件集成方案设计、高接入方案设计”。集成SDK架构设计我们知道,元界中的音视频业务大部分都是综合复杂的应用场景,包括RTC、虚拟人、实时数据传输等,业务功能中会用到我们的多个SDK,这意味着用户需要集成使用我们的多个SDK才能实现元界业务场景。因为按照我们老的SDK架构,不同的业务功能是承载在不同的SDK上的。这给我们的元界用户带来了更高的接入门槛和接入成本。为此,我们设计并实现了新一代音视频SDK:NERtcSDK。是集成SDK的架构设计,支持RTC、虚拟人、低延时直播、超低延时数据传输等。FusionSDK的架构图如下图所示。使用集成SDK架构后,对于复杂综合的业务场景,如3D虚拟人社交、虚拟实时会展等,无论同时有多少业务需求,只需要一次接入,大大提高了用户访问的速度和效率,降低了用户的访问成本。SDK插件集成方案设计在针对元界大规模业务集成痛点设计实现集成SDK架构设计的同时,我们设计并实现了SDK插件集成方案,用户可以自由选择SDK功能,被整合。这样无论是简单还是复杂的集成场景,都非常人性化。该方案主要有以下四个特点:灵活选择:支持静态编译和动态加载时的自定义选择。精准控制:根据需要集成相应的插件组件,精准控制APP安装包大小。高效接入:多个业务需求只需要连接一次。快速扩展:后续新的业务SDK可以快速集成到FusionSDK框架中。上面元界场景中的新一代音视频架构,就是我们如何应对元界业务发展给我们的音视频架构带来的挑战。一是重构音视频引擎架构,特别是数据引擎和基础算法组件引擎的设计与实现,让元界更多的技术元素,包括各种元界业务相关的技术和算法融入到音视频引擎中。引擎提供极致的沉浸式交互体验成为可能。二是设计并实现一体化SDK架构和插件集成方案,能够为简单或复杂的元界业务场景快速提供优质的音视频能力,为用户提供一站式整体解决方案。下面就在元界实际业务场景中实战介绍一下网易云信新的音视频架构。面对恶劣的工作环境,挖掘机司机不再需要深入现场,不仅在一定程度上减轻了劳动强度,而且从根本上杜绝了人身伤亡的安全隐患。这里主要应用的音视频能力包括:超低延时控制信令、实时音视频、VR数据云渲染等。AI虚拟客服第二个例子是AI虚拟客服,实现自动外呼通过外呼系统。线路采用VoLTE线路(客户无需安装APP,直接手机接听即可)。用户选择视频接听后,建立音视频室。通过AI虚拟人实现相应的业务,同时实现与机器人的交互。耀泰沉浸式展览系统的最后一个例子是我们的沉浸式展览系统,这是一个比较全面的应用案例,几乎集成和使用了所有内容,包括:RTC、超低延迟数据传输、虚拟人物、空间音效等。音频和视频功能。未来展望随着元界业务场景的不断发展,元界中的音视频应用场景将会越来越多。我们将继续深入探索音视频在元界的应用,持续打磨优化沉浸式音视频交互体验,将探索体验、技术优势、创新模式等与真实用户需求、行业需求深度结合,让MetaCosmos真正从概念走向应用,为社会创造价值。