随着移动互联网和人工智能的发展,基于语音的交互变得越来越重要和流行。
从目前的技术水平来看,安静环境、标准口音、常用词汇下的语音识别率已超过95%,完全达到可用状态,这也为语音交互功能的广泛应用奠定了技术基础。
在线语音交互的痛点:对网络的依赖和延迟很大,但目前语音交互技术的使用仍然离不开网络和云端。
从技术角度来看,一个完整的智能语音交互闭环系统包括语音信号采集与预处理(降噪、回声消除)、后端语音识别、自然语音处理(理解、决策、表达)、语音合成、等等各个模块。
从语音识别到语音合成的过程需要大量的数据和计算,并且通常在云端处理。
无论是如今市场上流行的智能音箱,还是各大家电厂商推出的智能冰箱、智能电视,所使用的语音交互大多都是上述的在线语音交互解决方案。
因此,设备常常需要通过智能手机将智能手机传输到设备上才能使用。
扬声器已连接至网络。
深圳木瓜电子科技有限公司技术支持工程师邱松晓指出,在智能家居和智能硬件中使用语音交互代替遥控器,可以解放用户的双手,带来很多便利。
然而,目前在线语音交互功能的使用仍然有限。
需要首先解决一些现有的缺点。
“在线语音交互依赖于云端进行处理。
设备前端往往只进行声音采集、回声消除、噪声抑制等处理,然后通过网络发送到云端进行语音识别和处理。
然后通过网络对处理后的结果进行处理。
回到设备上,存在两个问题:一是网络一旦出现问题,语音交互功能很可能瘫痪;二是一旦网络出现问题,语音交互功能很可能瘫痪。
其次,即使网络状态良好,设备的响应速度仍然不理想。
举个例子,前端语音处理大概50ms,通过网络需要ms左右,云端处理大概ms左右,而且有延迟,然后回来,总共估计是1S到2S,特别是当国内网络不稳定时,可能需要更长的时间。
“此外,在线语音交互解决方案通常需要唤醒词,设备只有说出唤醒词后才能开始与智能设备对话。
”邱说。
宋晓说道。
邱松晓和他的公司一直从事语音交互技术解决方案的开发,也为客户做了很多在线语音交互解决方案。
不过,目前他们也将大量精力集中在更简化的方法上。
离线语音解决方案。
该模组方案可实现单麦克风远场语音拾音、语音唤醒、回声消除、智能控制、语音播报等功能。
离线语音解决方案的优点是实时且经济高效。
顾名思义,语音识别是在本地处理的,不需要上传到云端处理。
“以控制空调为例,我们首先将‘请开空调’、‘调高一度’等命令词经过算法训练和模型匹配后固化在本地存储中。
在进行语音控制时,有无需连接网络,本地存储直接“调用”,邱松晓说,“与在线方式相比,离线方式确实有局限性。
”这种类型的解决方案更多的是基于控制,而不是交互;而且由于本地存储空间有限,与在线解决方案不同,是云端处理,所以命令字数确实比在线少。
一般命令字有几十个左右。
“集成了离线语音模块的设备可以通过语音控制执行一系列操作指令,但它们不像智能音箱那样智能。
可以进行天气查询、新闻、讲故事、对话等交互。
当在线语音解决方案如由于智能音箱如此受欢迎,木瓜电子也选择开发线下解决方案,除了考虑到上面提到的线上解决方案的缺点之外,其实更多的是出于亚马逊、京东的真实市场需求。
.com、阿里巴巴、腾讯等都推出了智能音箱,利用智能音箱来控制和连接家电,希望通过此类产品抢占智能家居的入口;另一方面,各大家电巨头也纷纷布局;他们自己的智能家居生态系统增加了语音交互和AI等功能,无论采用哪种方式,智能家居的落地可能都需要很长时间,因为它涉及到整个云平台和生态系统的创建,这可能会很困难。
供某个公司控制或连接。
“那么我们在智能家居中就不能享受到语音控制家电的便利了吗?其实,家里的很多设备,包括空调、窗帘、水壶、晾衣架、台灯等,并不一定需要语音控制。
”我们只是需要简化他们的控制方式,比如用语音控制来代替遥控器,让产品具备通过语音控制的能力,从而更高效地解决用户的需求。
”邱颂晓说道。
对于这些只需要语音控制而不需要交互的设备,离线解决方案可能更合适。
首先,由于离线智能语音交互模块消除了网络传输的时间损失,语音交互的实时性更高。
据了解,识别过程仅需毫秒,命令可立即响应。
基本无延迟,用户体验良好;其次,由于无需网络配置,离线智能语音交互模块具有用户即用即用的属性,无需对用户进行教育。
同时,不会出现意外的网络异常情况,用户友好性非常高。
此外,成本也较低。
相比线上十几块钱的解决方案,线下解决方案只需要几块钱。
而且,线下解决方案的目标市场较为单一产品,不涉及云网络或数据安全问题。
输出会快很多。
通过不断的模型训练和测试,离线解决方案的识别率可以达到95%。
然而,离线语音往往被认为是比在线语音识别低端的应用,但技术上要实现“离线语音识别”并不简单。
“我们常说‘台上一分钟,台下十年功’,离线识别正是如此。
在将声音发送到设备之前,还需要进行远场拾音和还原声音、回声消除等都会被处理,并且将清理后的声音与本地模型进行匹配,整个过程看似简单,但建立起来也很费力。
命令字模型“上海互助。
闻闻信息科技有限公司华南区销售总监孔令亚表示,“离线解决方案需要为每个命令词建立一个匹配模型,每个词至少会输入10个左右的样本,样本将不断地进行训练和模型匹配,只有测试完成后,模型才会被放入内存中,当外界发送指令时,才会与本地模型进行匹配,如果匹配,就可以执行动作。
目前,我们可以做多个命令词,但一般应用十几天到几十个场景就足够了。
“另外,离线解决方案中的一些指令或条目的识别率甚至可以高于在线。
解决方案。
例如,用于询问对方信息的离线语音控制模块在家庭环境中已经达到100%。
识别率95%,每天误触发2次。
孔令亚解释说,因为从样本量和训练数据来看,构建模型的出发点不同。
每个离线条目都是专用且耗时的优化。
但网上的人不会这样做。
中国语言如此丰富,方言如此之多,工作量非常繁重。
例如,对于命令/条目“请开门”,在线解决方案不会专门构建这样的命令样本和模型进行训练和匹配,因为工作量太大而无法实现。
。
因此,在线语音识别是针对单词或句子,而不是词条。
如果你说“类型”这个词,在线解决方案可能能够很快识别出来,但如果你说“开门”,语速一定要快一些或者带有情感,因为没有为此进行大量的样本训练术语中,很可能会出现误判或识别缓慢的情况。
。
“为了达到95%的识别率和每天2次误触发,我们要求每个语音命令词都有一个人的样本。
在语音训练过程中,不断调整命令词的语音模型。
这些训练样本还包括很多当地的普通话,比如广东、湖南、河南、北京等地的普通话,”他说,“我们生成一个命令词大约需要6周的时间,前4周花费在在样本采集和训练上,接下来两周进行了稳定性测试,虎文宝提供的语音命令词在国内使用时几乎没有问题,95%的识别率也是目前比较高的参数。
。
“线下解决方案的潜在市场可能会被打开,下半年将开始发货。
”目前我们的解决方案还没有完全上线。
可见大家近期的关注点都集中在智能音箱上。
事实上,线下也是一个潜在市场,与智能音箱并不处于竞争关系。
每个人都有自己的应用场景。
与智能音箱交互无可厚非,但当涉及到控制家电时,过程还是比较复杂,涉及到很多问题,包括生态问题、云平台问题、安全问题等。
”邱松晓分析道,“比如空调、水壶、台灯等还没有涉及到与家电的深度沟通。
这就是机器人需要做的事情。
没有人愿意和空调聊天。
未来,如果将电脑的能力融入到家电中,当你靠近家电时,你就能感知并判断出你想要做什么。
这确实很聪明,但目前还没有人能做到,也很少有人愿意这样做。
成本和用户体验是一个障碍。
所以,目前大家的需求就是增加语音控制。
增加了额外的控制方式,成本不会增加太多。
不过,它解决了到处寻找遥控器的痛点。
对于消费者来说,它只是提供方便、舒适的功能。
,不会追求先进技术。
“离线识别解决方案其实很早就出现了,但由于识别率等问题,一直没有得到广泛应用。
早在一两年前,识别率就在85%左右。
随着技术的发展,孔令亚指出,目前离线语音在家庭环境中可以达到85%,消费者的操作习惯和市场趋势使得这一解决方案能够进入家庭并打开市场。
需求和声音技术的积累是因素。
这决定了离线语音控制产品的市场发展,近年来,声音技术公司的出现、声音信号处理技术的改进以及声音样本的积累提高了离线语音识别率,这也提高了用户体验。
利用语音来控制设备必然会受到消费者的青睐,国内能够提供商用离线语音控制解决方案的厂商屈指可数,而且这些公司在过去几年都在重点投入。
在线语音识别和语音相关内容服务。
因此,线下语音控制方式的市场开放也受到一定的限制。
然而,离线语音控制解决方案的市场将不可避免地在不久的将来被打开。
离线语音控制解决方案成本低,量产速度快。
控制精度高。
离线语音控制解决方案以轻量级的方式集成到各种产品中,而无需像在线语音识别那样复杂的生态系统。
从市场反馈来看,家电厂商对于这一方案的接受程度还是比较高的。
理想的。
据了解,目前市场库存量已突破百万级,目前线下声控台灯、晾衣架、水壶等均已量产出货。
明年消费者将购买空调、烟机等、风扇、家用控制面板、按摩器、故事机、空气净化器、取暖器、热水器等产品,互信息模块已集成到国内厂商中这些产品用于项目合作。
“我们的离线模组去年才推出,之前也准备了大量的研究和设计,从客户那里拿到样品进行测试和生产可能需要半年到一年的时间,所以典型产品还没有这么快推出预计今年下半年成品出货,明年出货量肯定会超过1KK。
”邱松晓对市场前景充满信心。