当前位置: 首页 > 科技观察

Rokid算法负责人王文兵:AR下的“声音”“精彩”境界

时间:2023-03-22 11:51:30 科技观察

声音在我们的日常生活中无处不在,是不可或缺的一部分,在元界世界中亦是如此。为了实现对元界场景的全方位沉浸,需要各种声音技术的不断升级和发展。在近期举办的“AISummit全球人工智能技术大会”上,Rokid算法负责人王文兵发表了主题演讲《AR下的“声”临“奇”境》,介绍了Rokid自研6DoF空间声场的概念、主要技术模块、技术困难,以及AR结合的发展趋势和开发技术的初衷,说明了空间声场技术在元界世界的重要体现。演讲内容组织如下:什么是6dof空间声场?谈到这个问题,大家可以先抛开技术上的限制,想象一下AR上的声音应该如何呈现。事实上,我们现在使用的电视和手机大部分都是双声道的,比如立体声。家庭影院早已采用多声道,电影院等专业场景也有音箱进行空间布局。它应该如何在AR上呈现?我们可以想象一个画面,比如现在很流行的在线会议或者在线教育。如果你在元界世界里看到右边的数字人在说话,而声音却来自你的左边,这时候不觉得奇怪吗?另外,我们可以想象AR游戏。在以往的2D视觉中,声音可以随着视觉焦点一起移动,但在3D场景的360度范围内,人眼无法掌握整个视觉焦点,并且声音具有全局焦点。这就是为什么在很多游戏中,人们会随着声音来切换视角。因此,我们可以看到AR上的声音需要具备的一些特性:需要满足人对声音的高度敏感、声音的全局聚焦、声音的真实感。下面,我们将从三个维度来介绍音形的发展。首先,空间表达维度。整个声音的表现维度从5.1/7.1/9.1/...平面的单声道/立体声到多声道,再到5.1.x/7.1.x空间的多声道等等。越来越多,放置位置也从平面上升到了空间;第二,编码方式的维度。从最初的channel-based(即channel-basedencoding,每个channel上会有各种声音,比如我们平时表达的左右声道),到object-based(即针对object的出现),包括你在电影院里看的杜比全景声源,比如当某个炮弹发射时,那个炮弹的物体被特殊编码,它的运动轨迹被记录在元数据中,然后根据相应的扬声器位置;但我们最终的目的是要达到一个完全基于场景的效果,类似于HOA的全景声方式,不只是炮弹,我们都希望它有空间,有花草树叶飘落的感觉。第三,XR体验维度。过去,虚拟声音与现实世界是分离的。现在XR,特别是AR,我们一直在做的就是虚拟和现实的融合。人们之所以能够如此精细地分辨声音,是因为双耳模式,专业上是ITD和ILD,也就是两只耳朵之间的时间差和声音强度差。这两个区别会帮助我们快速定位出声音所在的位置。那么如何普及3D音效呢?如何突破场地限制?如何降低用户消费成本?如何让每个人都享受科技?Rokid研发的6dof空间声场将有助于解决这些问题。6dof空间声场从名字上可以分为两部分:6dof和空间声场。6dof主要表示六个自由度。陀螺仪提供绕XYZ三个方向的旋转,加速度计提供XYZ三个方向的加速度。6dof空间声场涉及声音的产生、传播、渲染、编解码,以及虚实声音融合交互的全过程。6dof空间声场的主要技术6dof空间声场的主要技术模块包括HRTFs、声场渲染和音效。HRTF是声源从自由场到耳膜的冲击函数,是在模拟消声室的环境中将全方位的声音传递到人耳的过程。声场渲染可以给人辨别声音位置的能力,能够虚实结合,完美处理真实物体对虚拟声源的影响。音效丰富音质,私密设计的开放式扬声器减少漏音,保证音量。架构图上方的SDK对外提供了空间模块,即空间引擎导出和语音引擎导出。空间信息可以被获取和建模,有助于数字世界和物理世界的整合。此外,我们还对RoomEffect做了一些修改。其整体框架类似于经典的网络结构。首先搭建网络,然后生成理论上的无损网络,然后在这个理论的基础上进行各种衰减和损失相关的设置,包括吸收、遮挡、反射等。其实我们自己的目的并不是做各种音效,我们只是结合产品的使用场景,比如影院或者音乐,为用户提供音效,达到很好的视听体验,可以在上面体验下一代AR眼镜RokidMax。6dof空间声场对比。左边是第三方SDK的效果。从0度旋转到90度时,各个频率的变化并不平滑,开始时急剧下降,后面的变化很小。右图Rokid制作的6dof空间声场,当你改变方位角时,不同频段有明显的变化。图中显示了不同角度、不同频段、不同幅度的表现。6dof空间声场的发展趋势随着元宇宙时代的到来,AR、VR技术的兴起,空间声场的发展也迎来了新的契机。空间声场的发展趋势主要体现在三个方面:一是沉浸感。人们可以基于现实世界进行反馈,更好地实现虚拟与现实的融合与交互,真正实现身临其境的体验。虚拟世界中的所有声音都不应该不受现实世界中任何物体的影响,因为它会让人觉得它仍然是分离的。除了融合,还需要互动。例如,在虚拟世界中,你可以通过语音、手势等方式与AR终端上的增强音效进行交互,选择暂停、播放,或者在不同层次、不同视角的窗口之间切换,或者自己感受。听起来很有趣等等。二是精细化,即在HRTF、分辨率、测试方法、定制化等不同方面进行精细化探索和实践。比较难提炼的是headpass,因为headpass的生成方法本身就很费时费力。它需要在整个球形空间上播放不同距离的每个点,然后对耳道进行采样。目前,一些学者正在研究如何用更少的采样点产生相同程度的精细化,以及如何通过插值或其他技术手段获得更高的精度;同时,从更长远的角度来看,细化的一个限制是自定义实现。三是私密性和音效,体验不同频段声音带来的听觉盛宴。不同的谐波或不同的频段给我们不同的感受。例如,混响过猛会影响人的听觉,而适当的混响会在音质方面带来丰富的听感;尤其是早期的混响,经常用来判断音色,低于3K的混响和侧向反射有助于形成更好的空间感和深度感,而高频成分则有助于我们实现环绕感。探索太空声场的初衷Rokid为什么要做太空声场?主要有以下三个原因:第一,沉浸感。我们一直在追求数字世界和物理世界的融合,比如玩游戏的生动,在线会议或在线教育的真实感。二是虚拟现实交互。我们相信,这个世界的未来将是一种虚拟与现实的融合。在融合的基础上,可以做很多交互,包括空间感知的过程和主观行为的交互。空间知觉是指世界中物体的大小、空间的大小、物质等方面。经过这种感知,会影响虚音;主观行为的交互是在数字世界中人为地对声音进行干预、选择和交互。交流。三、极致品质。ARGlass不同于手机、平板、电视等产品。使用手机时,断线或卡顿是可以容忍的,但对戴在眼睛上的ARGlass的实时性要求非常高。这种高实时性要求如何实现呢?这涉及算法、工程、系统、硬件和应用的整体优化。这些都是我们一直追求的使命。Rokid希望通过ARGlass产品直接向大众推广和普及这些能力;同时,我们也希望将这些技术作为基础能力发布在我们的YodaOS中,让开发者使用,间接造福用户,赋能各行各业。现大会演讲回放和PPT上线,前往官网查看精彩内容(https://aisummit.51cto.com/)