当前位置: 首页 > 科技赋能

左手握技术,右手握需求,但声纹识别依然不能成为“独行侠”

时间:2024-05-22 19:58:57 科技赋能

前段时间,OPPO 一不小心就上了热搜。

因为智能AI语音助手“小欧”的语音唤醒和解锁功能,用户花1元钱购买了一部OPPO手机。

这并没有让用户兴奋,反而让他们感到恐慌。

根据说明,录制语音后,应该只有语音的所有者才能通过语音唤醒并解锁手机。

但现在,在用户提前录制好语音的前提下,他的朋友已经成功通过语音唤醒了小欧,并解锁了手机。

哪一步出错了?答案是,语音识别。

更准确的说,是手机系统的声纹识别不够准确。

声纹识别虽然“低调”,但也掩盖不了市场带来的好处。

就像世界上没有两片叶子具有相同的纹理一样,即使是双胞胎,他们的舌头、牙齿、喉、肺、鼻腔等的大小和形状也不同。

各个方面都会有一些差异。

即使声音听起来相似,声纹图案也总是不同的。

具体地,声纹识别是生物识别方法之一。

它与指纹识别、人脸识别、虹膜识别等属于同一家族。

在现实生活中,识别技术通常被用作交互或安全认证的手段,声纹识别也不能幸免。

目前,声纹识别技术最大的市场在于安防和金融领域。

其中,最经典、最精彩的就是刑事侦查。

最好的例子来自2010年的热播剧《人民的名义》,针对陈海车祸,反贪局局长侯亮平与荆州市公安局局长赵东来讨论分析情况。

他们提到,陈海总共收到了荆州公安分局将两个举报电话号码交给不同技术部门进行两次鉴定,最后得出的结论是,两个电话里的举报人的声音都不是蔡成功。

你怎么知道这两个声音不是同一个人的?使用的技术是声纹识别。

而且,这是一种一对一的声纹识别技术,将手机上的声纹与数据库中蔡成功的声纹特征进行比对。

在金融领域,声纹识别技术还应用于用户身份确认等方面。

例如,银行系统会要求用户在登录时说出指定的文字,从而比对声纹数据来确认是否是用户本人。

可以说,在安防/金融等领域,声纹识别具有先天的实施场景和广阔的前景。

除了安防/金融等应用场景外,声纹识别也逐渐落地到智能硬件、智能家居等产品或场景中。

以智能家居场景中的智能音箱为例。

最初,智能音箱不具备声纹识别功能,这意味着任何人都可以唤醒它并对其发出命令。

当多人同时说话时,智能音箱就会出现“命令混乱”的情况。

如果任何人都可以通过智能音箱控制整个现场,无疑为犯罪分子实施犯罪提供了便利。

因此,由于安全性、接收指令的准确性、个性化等因素,声纹识别技术逐渐渗透到智能家居、智能硬件等场景中。

目前,在声纹识别技术的应用方面,除了进入安防、金融等行业外,长虹等硬件厂商也研发推出了具有声纹识别功能的智能电视、智能手机等。

从近几年的情况可以看出,相比指纹识别、人脸识别等生物识别技术,声纹识别显得“低调”,但市场需求确实存在,市场热度也在不断上升。

与其他家族成员相比,声纹识别的成长过程中存在着许多“绊脚石”。

此前,智言咨询发布《-年中国声纹识别技术行业市场运营态势及发展前景预测报告》指出,声纹识别技术全球每年营收为1.32亿美元,而这个数值在几年内将增至1.59,增长率为20.5%。

预计到2020年,声纹识别技术全球收入将达到2.64亿美元。

仅从这个数值来看,市场对于声纹识别的期待还是相当大的。

但另一方面,这个市场预期确实不够乐观。

国际权威研究机构Gen Market Insights发布报告称,2020年全球人脸识别设备市场价值为10.7亿美元,年底将达到71.7亿美元。

增长率为8%。

一侧是个位数,另一侧是十位数字。

他们之间的差距非常明显。

另外,我们再看另一组对比:从易用性、准确度、成本、用户接受度等角度对各种生物识别技术进行比较。

我们可以直观地看到,在综合评价中,声纹识别相比于其他生物识别技术在各方面都具有优势。

指纹识别、手掌识别、人脸识别、虹膜识别等生物识别技术。

然后,我们就迷茫了:有市场需求,而且在易用性、准确性、成本、用户接受度等方面比其他生物识别技术有优势。

为什么声纹识别技术的市场份额远远落后于人脸识别技术?身份识别和其他技术?问题在于数据收集和覆盖范围。

在本文开头,我们提到,即使是双胞胎,声纹特征也不同,但更准确地说,声纹是一种“相对独特”的生物特征。

在实际应用中,声纹识别受多种因素影响。

首先,登记模式受到环境、身体状况等因素的限制,人的声音会发生不同的变化。

其次,在应用中,也会受到注册环境的影响。

与验证环境不一致导致的不匹配问题导致声纹无法匹配;最后,声纹也会随着年龄的增长而变化。

另外,声纹虽然可以实现非接触,但在入侵方面也增加了更多的风险,比如录音、合成器合成等。

对于一些问题,人工智能技术可以提供一定的帮助,比如环境的影响声纹采集与比较。

一般来说,在语料库覆盖足够完整的前提下,用于模型构建和训练。

在最终的实际应用场景中,即使在嘈杂的环境中,系统在提取声纹特征时也会考虑到这些因素。

“去除”可以保证声纹特征的准确性。

什么是语料库?它指的是一个人的声纹数据。

不过,用极元创始人兼CEO温正奇的话说,环境不匹配的问题现在更多是通过语料库的覆盖来解决。

在他看来,技术的成熟度也在很大程度上取决于语料库的积累。

语料积累的全面性和完整性涉及到其背后的声纹数据库是否全面覆盖不同环境、不同状态等场景下的声纹特征。

对于普通企业来说,这是一项极其困难的工作。

语料的完整性影响模型训练的准确性,也影响声纹识别技术在实验室外的商业化,尤其是在1对N的“说话人识别”的情况下,相比于1对N 1的“说话人” “确认”和“说话人识别”将需要系统通过声纹识别技术在多人中找到一个人,这对系统的语料完整性、声纹特征提取的准确性等方面提出了挑战。

要求。

未来,声纹识别不可能是“独行侠”。

如今,以智能手机为例,各大手机厂商和应用开发商更愿意使用人脸识别技术进行身份验证、解锁和认证支付。

在机场、高铁等场所,人脸识别检票等设备也应该更加普遍。

在这些场景中,人脸识别技术作为一种安全认证技术被独立使用。

那么,同样的安全认证技术,声纹识别还有机会成为“独行侠”吗?严格来说,成为声纹识别“独行侠”的机会非常渺茫。

只有在相对有限的场景下,比如受外界因素影响相对较小的家庭环境,用户只需要提前输入多种状态下的声纹并实时更新,系统就能独立提供服务。

至于其他更复杂的环境,现在的声纹识别很多都是与语音识别、人脸识别相结合的。

例如,用户可以阅读指定的文本来登录银行账户等,安全指数更高。

因此,从大趋势来看,声纹识别不可能是“独行侠”。