当前位置: 首页 > 科技赋能

这个来自中科院的创业团队给了小米AI音箱一双“耳朵”

时间:2024-05-22 18:12:10 科技赋能

文章|宇阳随着影响深远的语音设备的崛起,人机交互的变革可以说是今年的热门话题,处处都在谈论人机交互的演变以及对语音未来的乐观态度相互作用。

围绕语音交互,芯片、麦克风阵列、远场语音识别、语义理解、语音合成、代工厂、平台服务、终端智能设备等相关厂商都摩拳擦掌,抢占语音入口先机。

“唤醒万物”的第一步,需要智能设备有一双“耳朵”,能够清晰地听到人们的声音,了解他们的意图。

声智科技是一家给智能设备“耳朵”的初创公司。

它可以让设备清楚地听到我们的声音,为后续的理解铺平道路。

近日,智喜喜与声智科技创始人陈晓亮就远场语音交互进行对话。

我们来看看这位来自中科院声学研究所的学者创业者有着怎样的创业故事,以及他眼中的语音交互产业。

? 1、中科院声学研究所创业团队成员陈晓亮,性格健谈、务实。

有时提出问题时,他可以谈论公司和行业,但交谈的内容也很务实,没有任何虚假。

2006年进入中国科学院声学研究所噪声与振动实验室,从事工业级和国防级声学相关研究。

陈晓亮进入声学所之前,曾在金山担任过一年软件工程师。

他自称在金山从雷军等人那里学到了很多营销知识。

(声智科技创始人陈晓亮)在声学所呆了十多年,随着语音交互入口的到来,以及陈晓亮开拓新“疆土”的决心,4年开始了自己的创业生涯。

年创立声智科技。

声音情报团队的初始成员来自中国科学院声学研究所的三个实验室:噪声与振动实验室、中科新力实验室和国家网络新媒体。

其中,噪声与振动实验室主要从事声学相关研究,中科新力实验室从事语音识别研究,国网新媒体主要方向在云端。

因此,声学智能团队从一开始就具备声学、语音识别、云服务三大能力。

盛智科技目前拥有会员50余人,其中从事技术工作的有40余人。

除了声学研究所外,其人员还来自杜比实验室、亚马逊、谷歌等。

Sound Intelligence提供的技术也分为前端拾音(声学)和远场语音识别两部分。

融资方面,刚刚成立的盛智科技获得峰瑞资本天使投资。

去年10月,盛智又获得了1万元Pre-A轮融资,由鸿泰基金领投,峰瑞资本跟投。

此外,陈晓亮还透露,盛智科技的A轮融资也正在进行中,将于今年10月宣布。

可见,在语音交互的巨大趋势下,具有中科院声学研究所背景的语音智能团队赢得了资本市场的青睐。

陈晓亮表示,此次融资一??方面将用于扩大业务和生产规模,另一方面将用于技术迭代和前沿声学研究的投入。

陈晓亮还表示,国内一线家居品牌大多采用声智科技的技术解决方案,如小米、三星、海尔等。

此外,百度、腾讯、阿里巴巴、Spichi等也是合作伙伴声音智能技术。

2、远场拾音+远场语音识别 如果说语音交互分为拾音唤醒、语音识别、语义理解、垂直搜索、语音合成等环节,那么声智科技的主要工作就集中在就前两部分,即前端的语音拾音和远场语音识别而言,它完成对用户语音的采集,清晰地听到用户的语音,并将语音转换为文本,然后交给用户交给后端公司完成其他任务。

具体来说,声智科技为客户提供从软硬件到基于声学的语音识别的远场语音交互解决方案。

提供从远场拾音到远场语音识别的全套技术,从而实现拾音与语音识别之间模型和算法的匹配,使语音识别更快、更准确,提供更好的前端效果。

陈晓亮说,“拾音和语音识别是很难分开的两个部分,前面如何处理,将直接影响后者的准确率。

” (声音智能技术产品)他还表示,相对而言,远场语音交互的核心问题是解决真实场景中的声学问题,比如混响、噪声问题等,而不是简单地用数据训练一个模型。

国内公司专注于声学的团队很少,这也正是声智科技的优势。

从具体业务来看,盛智科技有两条线。

其中一条是“让人们听到”,专注于声学方面,例如语音通话解决方案和视频会议解决方案。

另一条线是“供机器听”,主要是进行远场语音交互的智能设备。

声智提供前端软硬件解决方案,包括麦克风阵列模块(PCBA)、拾音算法、远场语音识别等。

拾音过程中最重要的就是麦克风阵列。

与其他麦克风阵列技术相比,声智科技的解决方案能够以场景和用户为中心,阵列的结构也更加开放。

陈晓亮提到,声智科技有单麦克风、两麦克风或多麦克风的解决方案,但他们对此不太关心。

他们以场景为核心定位,根据场景和产品来决定具体的解决方案。

比如智能音箱比较适合环形麦克风阵列,笔记本适合线性阵列,很多家电产品则适合“L型”阵列。

此外,还必须考虑客户对效果和成本的需求,以提供最合适的解决方案。

在语音识别方面,声智科技只做了远场语音识别,目前远场识别准确率在90%左右。

远场语音识别最大的痛点在于环境的复杂性,比如房间内的混响、噪音等。

虽然语音识别的改进可以通过自适应的方式来完成,但它总是会带来一些负面影响。

这就需要前端物理模型的更新和后端云平台训练模型的更新。

目前,声智科技的技术解决方案主要应用于智能家居、车载前装、安防和金融场景。

具体产品包括智能音箱、智能电视、消费类摄像头、安防级摄像头、车载设备等。

该领域客户包括小米、联想、京东、创维、海尔等。

3、工业级应用成为核心利润来源。

虽然目前语音交互和智能音箱很热,但市场还没有打开,销量也没有增加。

声智科技如何盈利? (声智能技术开发套件)陈晓亮坦言,声智能的商业模式很简单,就是卖解决方案,具体是卖硬件,语音识别是免费的。

硬件方面,声智科技销售麦克风阵列模块、PCBA电路板以及多个系列的开发套件。

虽然去年才刚刚成立,但盛智科技已经现金流为正。

陈晓亮表示,盛智去年的利润达到了100万元,今年更是在数千万。

但其核心盈利场景并不在智能家居和消费电子领域,而是在工业级应用,比如安防摄像头。

这种工业级应用约占声智科技利润的80%左右。

可见,虽然智能家居是很多企业深度涉足的场景,但目前的智能硬件并没有盈利。

企业需要依靠多元化的业务结构,特别是摇钱树业务来支撑公司的发展。

4、目前远场拾音的痛点目前远场拾音领域主要有两大流派。

一是以Conexant为代表,将数据处理放在前端硬件上。

不过,陈晓亮表示,这种方法的缺点是升级硬件比较麻烦,更新周期较长。

另一种是以谷歌为代表,将所有技术架构放在云端。

为了减少硬件方面的计算,选择了亮麦。

盛智科技选择了介于两者之间的路线。

考虑到前端硬件迭代成本较高,会把不依赖数据处理的放在前端硬件上,依赖数据处理的放在云端。

如果你想升级的话,只需要升级即可。

只是软件。

但陈晓亮也表示,消费级麦克风阵列技术才刚刚开始。

我们现在的技术只能应用,但效果还不够好。

远场拾音面临环境的复杂性,如何低成本解决环境噪声、人声干扰等问题。

这需要麦克风升级(矢量麦克风)和算法迭代,还有很长的路要走。

目前的麦克风阵列技术还停留在声源定向层面,尚未实现声源定位,更谈不上声源跟踪。

例如,如果您在移动时与智能设备通信,由于波束形成,它将抑制主瓣之外的声源。

在背景噪音存在的情况下,很可能你将无法完成交互任务,而这要依靠尖端的声学技术来解决。

另外,麦克风阵列无法同时与多人交互。

目前的波束形成技术仍然是单波束声源定向,这意味着它会集中拾取某个方向的声源,从而抑制其他方向的声源,因此机器无法同时与多人交互。

目前,多光束技术尚未实现。

即使实现了多波束,也会出现更复杂的问题,比如如何区分多波束等,需要前沿声学技术的进一步突破。

5、看好电视、车载场景下的语音交互。

在语音交互场景中,陈晓亮表示,他更看好明年的智能电视。

一方面,传统电视需要升级。

另一方面,互联网电视也存在海量资源与高效获取之间的矛盾。

,语音交互是更适合、更刚需。

再晚一点,汽车上的车载设备也是一个比较有前景的市场。

对于智能音箱,他认为,如果把重点放在“智能”上,那是不会有前途的,因为很难在智能的基础上创造出一个新的品类。

但如果焦点是“扬声器”,那么市场本身就存在。

如果将智能音箱视为蓝牙音箱的升级版,实现一定的销量是没有问题的。

(小米AI音箱采用盛智科技远场语音交互解决方案)而智能音箱市场销量能否爆发?他认为,还需要半年的时间来验证智能音箱的趋势是否确立,然后我们才能验证它何时会爆发。

百万级别是一个障碍。

如果达不到这个销量,那么第一波人工智能将会“硬着陆”。

国内智能音箱的真正普及将来自于BAT等互联网巨头的进入。

他认为BAT等公司制造的智能音箱只是一个突破。

它们是人工智能落地的第一个验证产品,也是对自身技术的验证。

就像小米AI音箱一样,音箱只是一款实用产品,而小米AI大脑则是一款战略产品。

此外,新的人机交互方式和语言入口必然催生新的平台,从而成为下一个巨头企业。

目前,百度推出了DuerOS平台,Spichi推出了DUI平台,科大讯飞也有自己的AIUI平台等,互联网巨头、语音科技公司和创业团队都在涌入语音交互平台。

陈晓亮认为,搭建平台需要前期巨额投入,补贴上下游合作伙伴和客户,从而为各方创造价值。

这也决定了未来的平台需要大量的投入,并且将面临激烈的竞争。

众多玩家中,只有少数玩家能活下来。

以淘宝为例。

它的成功不是其技术的成功,而是其商业模式的成功。

淘宝前期也花费了大量精力吸引商家提供补贴。

可见,平台前期需要大量投入来补贴合作伙伴和客户,共同构建生态系统。

这和做技术是完全不同的想法。

虽然现在大家都在招募合作伙伴打造开放平台,但目前的AI平台并没有过多考虑合作伙伴的利益,也没有实行补贴。

平台最大的恐惧就是没人会用。

一旦没有客户进入,所有平台和合作伙伴都将成为空谈。

他还认为,平台的核心在于商业模式。

目前,每个平台都处于起步阶段,每个都有机会,但每个公司的战略非常重要,平台不能建立在技术思想的基础上。

未来,哪个平台策略更精准,能够获取客户,为产业链上下游合作伙伴创造价值,就能获得更多优势。

结语:语音交互行业备受关注。

随着语音交互的普及,行业对声学的需求也越来越大,这也将中科院声学研究所等科研学术机构推到了时代的前沿,出现了像陈晓亮.企业家将更多的声学研究应用到消费场景中。

但语音交互才刚刚开始。

一方面,全产业链需要打磨自身技术,提供更多优质应用技能。

另一方面,就声学本身而言,还存在远场语音识别、声源定位跟踪、多人交互等问题,需要更多前沿技术的投入,共同推动声学的发展。

行业。