当前位置: 首页 > 科技赋能

深度! 360智能音箱“耳朵”的解剖

时间:2024-05-22 17:45:02 科技赋能

智动西(公众号:zhidxcom) 正文 |宇阳如果没有“它”,所有人工智能设备都将“聋”,所有智能音箱也将“聋”智能音箱;没有它,背后令人惊叹的人工智能技术就毫无用处!它就是智能设备的“耳朵”——麦克风阵列。

“Alexa”,当你呼叫 Amazon Echo 时,它会通过顶部的蓝色光环进行响应,“今天天气怎么样?”它会“理解”你的意图,并用轻柔的声音告诉你天气状况。

(从左到右分别是叮咚音箱A1、亚马逊Echo、Google Home、天猫精灵A1)“听懂”或“听清楚”的第一步是准确获取用户的声音(即拾取声音) )。

否则,云端的虚拟助手再聪明,也依然是无头苍蝇。

麦克风阵列是语音交互的第一步,在智能音箱的实现中起着关键作用。

不仅是传统的芯片公司,还有具有深厚技术背景的语音技术巨头和初创公司纷纷加入这一领域。

与此同时,随着智能音箱和语音交互的普及,麦克风阵列技术开始走到前沿。

“XX产品使用谁的麦克风阵列?”也成为业界的热门话题;此时,我们有必要看清“麦克风阵列”产品技术的前世今生以及产业链的现状,这也是本文作为智能音箱行业系列报道的主要目的。

那么我们常说的麦克风阵列到底是什么呢?它有哪些类别和作用?哪些球员参与其中?市场上各种智能音箱所使用的麦克风阵列有什么区别? 1、麦克风阵列:声音拾取简单来说,麦克风阵列是由两个或多个麦克风按照一定规则排列组成的录音系统,用于采集和处理特定空间中的声音。

它是远距离语音录音系统(1米以上)设备的关键部分。

(注:本文讨论的是元语语音设备中的消费级麦克风阵列)(图为四台智能音箱的麦克风阵列)麦克风阵列的作用是拾取声音。

在远端语音设备中,麦克风阵列通过声源定位、波束形成、噪声抑制、回声消除等远端语音算法有效拾取声音,从而保证特定场景下语音的识别率。

具体来说,以智能音箱为例,家庭场景中会出现各种噪音。

麦克风阵列的作用就是“在人群中寻找其他人”,在众多的干扰噪音中找到你,但仅仅找到你还不够。

噪音需要被抑制,你自己的声音的影响需要被抑制,你的声音需要被增强,以确保在云端的有效识别并满足你的任务指令。

拾音分为远场拾音(1米外)和近场拾音(20cm以内)。

例如,以Siri为代表的智能手机采用近场拾音,利用单个麦克风拾取声音,满足近距离、低噪声的语音识别需求。

但一旦智能手机放置在有噪音的远处,Siri的识别率就会直线下降,单个麦克风的局限性就会凸显出来。

这就是远场拾音和近场拾音的区别,也凸显了麦克风阵列的重要性。

不仅如此,由于噪声、混响等因素的存在,远场拾音必须匹配远场语音识别算法才能真正“听得清楚”。

2、麦克风阵列关键技术在远场拾音中,麦克风阵列可以提供前端信号处理,拾取有效语音信号并发送给云端进行识别。

其中有几项关键技术:声源定位、波束形成、噪声抑制、回声消除和语音增强。

1、声源定位 声源定位的任务是在特定场景甚至从噪音中找到发出声音的“你”,以便于后续的波束形成。

它基于麦克风阵列对目标信号(声源)的位置检测来确定说话者在特定空间中的位置关系。

尤其是在移动场景中,实时声源定位非常重要。

2、波束成形 波束成形是对麦克风阵列中各个麦克风输出的声音进行信号处理,形成空间指向性。

这种方法可以抑制目标声音以外的声音干扰,不仅可以抑制噪声,还可以抑制来自其他方向的人声。

以叮咚音箱的AIUI模式为例。

多伦对话开始一定时间后,会优先将第一个说话者作为其拾音的主方向,从而抑制其他方向的声音,以保证能够与一个对话者进行对话。

相互作用。

这也意味着,以目前的技术,智能音箱不可能同时与多人互动。

3.噪音抑制 如果你在卧室打开电视,就很难唤醒睡在床上的iPhone中的Siri。

这是因为它不具备抑制噪声的能力。

但你可以唤醒离你很远的智能音箱,这就是噪音抑制的作用。

简单来说,噪声抑制就是保留目标声音,削弱目标信号中的周围噪声和干扰噪声,从而保证获取的目标声音信号比较清晰,然后与云端匹配的语音识别算法相结合达到有效的认识和理解。

4、抗混响混响是声源发出后,被空间中多个物体(墙壁)反射吸收后,几种声波混合而产生的现象。

它将影响语音信号的处理和声源的定位。

准确率和语音识别效果。

通过FarVoice算法消除混响是FarVoice语音设备拾音过程中的关键步骤。

5、回声消除 回声消除简单来说就是防止语音设备本身发出的声音干扰拾音过程。

例如,当智能扬声器正在播放音乐时,您可以唤醒设备并发出命令。

这时,麦克风阵列同时采集你发出的声音和正在播放的音乐的声音。

回声消除是消除音乐的声音并保留人声。

在云端提供语音识别。

6.语音增强 家庭环境中存在背景噪声、回声、混响等噪声干扰。

这些噪声的叠加严重影响了语音识别效果。

除了降低各种噪音之外,还可以从语音增强方面进行改进。

远距离拾音的另一个问题是获取的语音信号较弱。

需要通过麦克风阵列分离噪声,提取目标信号,增强语音信号的能量,以提高语音识别效果。

3、消费级麦克风阵列的里程碑早在20世纪70年代和80年代,麦克风阵列就已经应用于语音信号处理。

20世纪90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为新的研究热点。

近年来,随着语音交互成为趋势,麦克风阵列逐渐进入消费市场并日益普及。

在麦克风阵列领域拥有丰富经验的先采互联网创始人付强曾表示,麦克风阵列在消费领域的出现有几个里程碑:第一个里程碑是微软于2017年正式推出Kinect。

今年六月。

Xbox游戏机的体感外设内置红外摄像头、传感器和麦克风阵列,可以通过改变用户的身体动作并发出指令来操作游戏。

Kinect曾经总共售出1万台,但近年来它的受欢迎程度逐渐下降。

(图为微软Kinect)第二个是三星2016年推出的全球首款具有远程语音功能的智能电视,该电视采用麦克风阵列和科胜讯的语音芯片,支持语音控制??,引领了国内智能电视潮流。

第三个里程碑是年底推出的亚马逊Echo智能音箱,采用6麦克风阵列,支持5米距离语音控制。

Echo不仅是第一款真正的智能音箱设备,也是消费级麦克风阵列应用的里程碑事件,并掀起了当前中国智能音箱的热潮。

(图为亚马逊智能音箱Echo)其中,三星首款智能电视和亚马逊Echo智能音箱均历经四年打磨,才达到如今的技术成熟度。

回顾国内的智能音箱浪潮,我们还缺乏这样长期的技术投入和对产品的耐心打磨。

4、麦克风阵列代表厂商随着国内智能音箱和语音交互的普及,麦克风阵列和远程说话算法领域诞生了一波解决方案提供商,其中可以提供麦克风阵列和前端语音的硬件解决方案。

结束算法。

厂商并不多,智东西选择了几家有代表性的方案厂商。

1、科大讯飞——国内语音龙头科大讯飞是国内老牌智能语音公司。

它有一个专门的团队研究麦克风阵列技术。

目前科大讯飞的开放平台提供两麦线阵、四麦线阵和六麦环形阵列。

中兴通讯、海康威视、美的、高德地图、优必选、Setaria Setaria等都是其客户。

叮咚音箱由京东与科大讯飞合资的玲珑科技推出,科大讯飞提供语音语义等技术支持。

叮咚音箱A1是国内首款真正意义上的智能音箱。

它于2018年8月正式推出,采用7麦克风阵列、Horn Acoustics提供的ECM麦克风、Conexant CX0-11Z音频芯片。

从结构上来说,它与其他放置在顶部的智能音箱有所不同。

而是位于主控电路板下方,采用中空结构。

麦克风向外倾斜拾音,颇有创意。

(叮咚音箱A1的7环麦克风阵列,黑色的是麦克风) 2、科胜讯——国际语音解决方案巨头科胜讯成立于2007年,曾经是全球最大的独立通讯芯片提供商。

后来几经周折,才被Synopsis取代。

技术收购。

在语音交互领域,主要提供语音芯片和麦克风阵列技术。

其解决方案最大的优势在于降噪和语音增强算法,技术也较为成熟。

难怪Conexant总裁Saleel Awsare表示,其双麦克风可以达到与朋友的5-8麦克风解决方案相同的效果。

亚马逊、百度、阿里巴巴、腾讯、哈曼、科大讯飞、出门问问、云语音等都是其客户或合作伙伴。

据了解,科胜讯为Alexa语音服务(AVS)定制了AudioSmart语音处理开发套件,目前已出货超过10000台,涵盖智能音箱、智能家居、智能电视、机器人等多个品类。

出门问问刚刚发布的智能音箱也采用了科胜讯的解决方案。

此外,苹果的HomePod也可能会使用Conexant的AudioSmart开发套件。

3、先策互联网——阵列研究先驱先策互联网是一家成立于2009年的初创公司,主要提供麦克风阵列和前端信号处理技术。

其创始人付强在中科院声学研究所拥有10多年的声学研究经验,在语音信号处理领域有20多年的积累。

先采互联目前主要提供两麦克风、四麦克风、六麦克风等解决方案,在抗混响、回声消除、语音增强等方面表现良好。

先测互联是百度的合作伙伴,其多麦克风硬件开发套件也应用于百度的DuerOS平台。

目前,五菱的luka阅读开发机器人、极米科技的Lightank W、数字家庭的震剑H2等产品均采用了先声互联网的远程对讲算法和麦克风拾音模块。

此外,先采互联网还与腾讯、联想、小米等公司就某些智能硬件产品进行合作。

4、Spichi——成熟的解决方案输出提供商,Spichi成立于2007年,是一家面向B端客户的语音语义技术提供商。

其副总裁雷国雄告诉智动智,Spichi从今年开始就在研究麦克风阵列技术,并配备了专门的团队来研究语音信号处理,并根据Spichi的语音进行优化。

目前,Spichi提供单麦、二麦、四麦、六麦等解决方案。

经过5、6年的积累,在性能和稳定性方面都表现良好。

阿里最近推出的天猫精灵X1采用了Spichi的环形6麦克风阵列,模拟麦克风来自民芯微电子。

天猫精灵在降噪、回声消除等拾音方面都有着不错的表现。

此外,联想、小米、美的、DOSS等都是其客户。

5、声智科技——后起之秀 声智科技也成立于2001年,提供麦克风阵列和远程说话算法。

目前已推出单麦、两麦、四麦、六麦、八麦阵列解决方案。

也有不错的性能。

有趣的是,其创始人陈晓亮也来自中科院声学研究所。

最近发布的小米AI音箱,采用了声智科技的环形6麦克风阵列和唤醒技术解决方案。

声智科技也是百度的合作伙伴,推出了基于DuerOS的语音解决方案。

此外,腾讯、阿里巴巴、奇虎、华为、海尔等都是其客户。

5.麦克风阵列:双向区分。

目前,智能音箱中的麦克风阵列呈现出两种方式的分化,主要包括圆形和线性。

亚马逊Echo、叮咚音箱、天猫精灵、小米AI音箱等都有类似的技术路线。

它们都使用 6() 和 7() 麦克风的环形阵列,而 Google Home 和 Mobvoi 扬声器则使用 2 个麦克风。

线性阵列。

(亚马逊Echo的6环麦克风阵列,金色的是麦克风)为什么不同公司使用的麦克风数量不同?是越多越好吗?先策热互联网的付强曾从技术角度表示,事实并非如此。

目前,麦克风阵列语音增强大致可分为两种技术路线:一是以Amazon Echo为代表的经典波束成形路线,该路线严重依赖麦克风数量和阵列拓扑(排列位置)。

通过使用更多的麦克风和特定的结构,使波束的空间分化更强,保证声源定位和拾音效果。

另一种是以Conexant为代表的路线,更多地依赖语音增强算法,较少依赖麦克风阵列的数量和阵列拓扑。

通过自适应降噪、混响降低、语音分离等技术,可以用少量的麦克风获得良好的拾音效果。

有趣的是,8月24日刚刚发布的出门问问智能音箱采用了科胜讯的2麦克风阵列。

从其测试结果来看,远场拾音唤醒能力并不逊色于竞品。

(黄色方框为Google Home 2麦克风线性阵列)关于阵列麦克风数量的选择,Spichi副总裁雷雄国从产品层面谈到:首先考虑性能,Spichi选择从单麦、6麦、8麦、12麦都曾尝试过,但Spirit出于成本和性能的综合考虑,最终选择了6麦作为主阵列方案。

虽然6麦及以上性能会有所提升,但提升效果与成本并不成正比。

但当6麦数量减少时,成本就会降低,性能也会相对降低。

其次,产品形态会影响阵列的选择。

例如,如果电视上的Soundbar等设备形状较长,则适合线性阵列;而Echo和Ding Dong是椭圆形的,所以可以选择圆形阵列。

另外,麦克风数量的选择也与产品定位有关。

如果定位高端产品,对体验有较高要求,可以选择6麦阵列,中低端产品可以选择2麦或4麦阵列。

6、麦克风阵列在远场交互中存在的问题虽然智能音箱经过一段时间的打磨,在声音拾取、唤醒、识别等方面都能够取得不错的效果,但远场交互中麦克风阵列仍然存在一些迫切的需求。

场互动。

解决了问题。

首先,错误觉醒是一个问题。

雷雄国也表示,表面上看,这是觉醒的问题,但实际上却和阵法有很大的关系。

唤醒得到的是阵列拾取的信号。

阵列对信号噪声处理的影响直接影响误唤醒。

这个问题也可以从产品角度来解决。

比如醒来后,它只开灯,不“说话”,这样就好多了。

其次,声源定位有待提高。

在声学环境中,尤其是在强反射、强回声、噪声环境下,声源定位需要很大的改进空间。

第三,动态环境中用户位置的跟踪也需要改进。

在家庭场景中,人会处于移动状态,唤醒和指令可能不是同一个方向。

在接下来的人机交互中,来自那个方向的信号将被重点处理。

如果房间内有多个声源,指令可能无法执行。

第四,麦克风阵列无法同时识别和处理多种语音。

目前的波束形成和噪声抑制会导致阵列同时处理同一方向的声源,从而抑制其他声源。

这意味着目前的技术路线下,机器无法同时与多人交互。

结论:麦克风阵列为智能硬件提供了“耳朵”。

当我们想到未来时,我们想象无处不在的智能和虚拟助手帮助我们做任何我们想做的事情。

机器走向智能的第一步就是听懂人类的声音,所以它首先应该拥有一双“耳朵”。

在当今的人工智能时代,麦克风阵列的作用就是给智能硬件“耳朵”,使其能够更好地听到人类的声音,然后将声音传输到云端的智能“大脑”,以供其理解和调动自己的声音。

“耳朵”。

技能”来满足人类的需求。

不过,这些“耳朵”是否在各种场景下都灵敏好用,能否“听清八方”,还需要对底层声学技术进行进一步研究。