文章|在刚刚过去的第四届乌镇互联网大会上,搜狗展台凭借机器翻译、搜狗名译、搜狗大律师、智能问答、唇读识别等人工智能技术和产品吸引了与会者的目光,其中最引人注目的——抓住一个是唇形识别。
所谓的唇形识别利用机器视觉来解读说话者所说的内容,而无需听声音。
它仅依赖于识别说话者的嘴唇动作。
(搜狗语音交互中心技术总监陈伟)今天,搜狗召开媒体沟通会,公开介绍和演示了这项全新的唇形识别技术,包括其背后的技术原理、开发该技术的动机以及未来的场景应用。
1.通用唇形识别准确率达到60%。
与语音识别不同,唇形识别是一项基于机器视觉和自然语言处理的技术,因此比语音识别难度要大得多。
搜狗语音交互中心技术总监陈巍为我们介绍了唇形识别背后的技术逻辑。
唇形识别需要摄像头不断从图像中识别人脸并提取说话者连续的嘴形变化特征,然后将这些唇形特征放入唇形识别模型中获取发音单元,通过语言模型获得文本数据,最后输出文本。
据搜狗介绍,这也是国内首个公开展示的唇读系统。
搜狗利用端到端深度神经网络技术对唇语序列进行建模,并通过数千小时的真实唇语数据训练,建立的词汇量已超过10万词,一般情况下已经能达到10万词。
唇语识别。
准确率达到60%,在搜狗深度涉及的车载和智能家居场景中,准确率可以达到90%。
在搜狗主要布局的汽车和智能家居场景中,由于边界有限,使用的词汇量大大减少。
搜狗还为这些场景打造了“限定符”,比如在汽车场景中“播放音乐”,大幅提升唇形识别准确率。
目前,搜狗团队已经围绕场景进行了多场预选赛。
正常人的唇形识别能力约为10%,一些经过训练的聋哑人可以达到40%左右。
在这方面,机器已经超越了人类。
2、提升远场语音交互是驱动力。
虽然各家公司的技术在近场语音识别方面都可以做到95%以上,但一旦将语音识别从近场延伸到远场,尤其是在伴有噪声混响的情况下。
环境下,语音识别的准确率会大大降低。
目前常见的方法是利用麦克风阵列来处理远场环境中的噪声,以提高语音识别的效果。
例如,当前热门的智能音箱采用麦克风阵列技术进行前端信号处理。
陈薇表示,麦克风阵列和唇形识别是提高远场噪声环境下语音识别能力的两种手段。
麦克风阵列是从消除噪声的角度来做的,而唇形识别则是直接面对噪声等环境。
将唇读与语音识别直接结合,提高语音识别准确率。
麦克风阵列是当前的技术应用,已经在很多产品中实现,而唇形识别才刚刚开始,未来将会在产品中实现。
据智西西的观察,虽然麦克风阵列技术可以大幅提升智能设备的远场语音识别能力,但当环境背景噪声过大且复杂时,机器在语音识别方面仍然会出现问题,唇语也可能会出现问题。
识别可能是一个很好的补充,你可以直接读唇语,而不受环境噪音的干扰。
“就是把语音识别和唇形识别很好的结合起来,让唇形识别能够起到辅助的作用。
”陈伟说出了自己这样做的初衷。
虽然唇形识别的准确率还不够高,但通过限制场景并起到辅助作用,远场语音交互的准确率可能会进一步提高。
3、唇形识别之痛:泛化谷歌DeepMind团队去年11月也展示了其唇形识别技术。
当时它的识别率接近50%。
可以说,搜狗在唇形识别方面又向前迈进了一步。
搜狗唇形识别团队表示,搜狗语音技术中心主要做的是自然语言交互,主要聚焦车载和智能家居场景。
面对远场噪声环境识别精度的下降,除了麦克风阵列之外,还想到了通过唇形识别来提高语音识别能力。
这项技术目前已经开发了大约一年。
当智西西问唇形识别最大的困难是什么时,团队表示在于唇形识别的泛化。
例如,电视主持人的发音和唇型都比较标准,因此可以达到70%左右的唇形识别率。
但普通人的唇形差异很大,因此唇形识别率会下降很多。
另外,汉语的复杂性往往意味着一个唇语特征对应多个发音单元,例如“can/zang”,这大大增加了唇语识别的难度。
针对人物泛化、场景泛化等难点,搜狗一方面利用各种新闻、电视节目的数据进行训练,另一方面也收集了大量普通人的唇语数据进行训练,在一定程度上改善了唇语。
识别的泛化效应。
进一步针对车载和智能家居场景,通过限制场景和限定词,进一步优化唇形识别的准确率。
智东西现场也体验了这套唇形识别技术,比如汽车场景中的一些常用短语、家居场景中的诗歌等,都有不错的效果,但通用唇形识别还有待进一步完善。
结论:实施该场景需要时间。
只有一项技术能够落地并商业化,才能真正体现其价值。
在未来的场景中,搜狗唇语团队谈到,一方面可以与语音识别技术结合,解决远场环境下的语音问题。
另一方面,唇语未来还可以应用于验证、安全等领域。
然而,由于通用唇形识别的准确率仍然较低,且泛化性较差,其技术的落地可能还需要一段时间。
限制边界并发挥支撑作用可能是唇形识别应用的第一步。