当前位置: 首页 > 科技观察

AI看唇语,嘈杂场景下语音识别准确率高达75%

时间:2023-03-15 18:36:39 科技观察

人们通过聆听和观察说话者的唇部动作来感知语音。那么,AI也能做到吗?事实上,研究表明视觉线索在语言学习中起着关键作用。相比之下,人工智能语音识别系统主要建立在音频之上。而且它需要大量的数据来训练,通常是数万小时的记录。调查视觉效果,尤其是嘴部运动的镜头,是否可以提高语音识别系统的性能。Meta的研究人员开发了视听隐藏单元BERT(AV-HuBERT),这是一种通过观看和聆听人们说话来学习理解语言的框架。Meta声称AV-HuBERT比使用相同数量转录的最佳视听语音识别系统准确75%。此外,该公司表示,AV-HuBERT使用十分之一的标记数据,性能优于之前最好的视听语言识别系统,这使其对视听数据很少的语言具有潜在的用处,该公司表示。MetaAI的研究科学家AbdelrahmanMohamed表示:“未来,像AV-HuBERT这样的AI框架可以用来提高语音识别技术在嘈杂的日常条件下的性能,例如在聚会或熙熙攘攘的街道上进行互动。智能手机、增强现实眼镜和配备摄像头的智能扬声器(如AlexaEchoShow)中的助手也可以从这项技术中受益。”目前,Meta已将相关代码开源到GitHub。AV-HuBERTMeta并不是第一个将人工智能应用于唇读问题的人。2016年,牛津大学的研究人员创建了一个系统,该系统在某些测试中的准确度几乎是经验丰富的唇读者的两倍,并且可以实时处理视频。2017年,Alphabet旗下的DeepMind在数千小时的电视节目中训练了一个系统,可以正确翻译测试集上大约50%的单词而没有错误,远高于人类专家达到的12.4%。但是Oxford和DeepMind模型,就像许多后来的唇读模型一样,在它们可以识别的单词范围内受到限制。这些模型还需要与转录本配对的数据集进行训练,并且它们无法处理视频中任何说话者的音频。有点独特的是,AV-HuBERT利用无监督或自我监督学习。通过监督学习,像DeepMind这样的算法在标记的示例数据上进行训练,直到它们能够检测到示例和特定输出之间的潜在关系。例如,当系统显示一张柯基犬的图片时,可能会训练它写下“狗”这个词。然而,AV-HuBERT自学对未标记的数据进行分类,处理数据以从其固有结构中学习。AV-HuBERT也是多模式的,因为它通过一系列音频和嘴唇运动线索学习感知语言。通过将语音过程中的嘴唇和牙齿运动等线索与听觉信息相结合,AV-HuBERT可以捕获这两种数据类型之间的微妙相关性。最初的AV-HuBERT模型在30小时的TED演讲视频上进行了训练,明显少于之前最先进模型的31,000小时训练时间。然而,尽管在较少的数据上进行了训练,但AV-HuBERT的词错误率(WER)作为一种语音识别性能的衡量标准,在可以看到但听不到说话者时略好于旧模型。33.6%,前者为32.5%。(WER的计算方法是将错误识别的单词数除以单词总数;32.5%表示每30个单词大约有一个错误。)433小时的TED演讲训练进一步将AV-HuBERT的WER降低至28.6%。一旦AV-HuBERT很好地理解了数据之间的结构和相关性,研究人员就能够在未标记的数据上进一步训练它。上传到YouTube的2,442小时名人英语视频,这不仅使WER下降到26.9%,而且Meta表示,这表明只需要少量标记数据就可以为特定应用程序训练框架(例如,当多人同时说话时)或不同的语言。事实上,Meta声称,当背景中播放嘈杂的音乐或噪音时,AV-HuBERT在识别一个人的语音方面比纯音频模型好大约50%,并且当语音和背景噪音同样响亮时,AV-HuBERT的WER为3.2%,而之前最好的多模式模型为25.5%。潜在的缺点在许多方面,AV-HuBERT是Meta对复杂任务的无监督、多模态技术不断投资的象征。Meta说AV-HuBERT可以为开发“低资源”语言的对话模型开辟可能性。该公司建议,AV-HuBERT还可用于为有语言障碍的人创建语音识别系统,以及检测深度伪造并为虚拟现实化身生成逼真的嘴唇运动。从各种数据来看,新方法的实现着实令人兴奋,但也有学者存在一些顾虑。其中,华盛顿大学人工智能伦理学专家奥斯凯耶提到,对于因唐氏综合症、中风等疾病导致面瘫的人来说,依靠唇读语音识别是否有意义?在微软和卡内基梅隆大学的一篇论文中,提出了人工智能公平性研究的路线图,指出类似于AV-HuBERT的面部分析系统的某些方面可能不适合患有唐氏综合症、软骨发育不全(损害骨骼生长)和“导致特征性面部差异的其他情况”等。Mohamed强调,AV-HuBERT只关注唇部区域来捕捉唇部运动,而不是整个面部。他补充说,与大多数人工智能模型一样,AV-HuBERT的性能将“与训练数据中不同人群的代表性样本数量成正比”。“为了评估我们的方法,我们使用了公开可用的LRS3数据集,该数据集由牛津大学研究人员于2018年公开发布的TED演讲视频组成。由于该数据集不能代表残疾演讲者,因此我们没有期望特定百分比的性能退化,”穆罕默德说。Meta表示,它将“继续基准测试和开发方法,以在背景噪音和说话人重叠很常见的日常场景中改进视听语音识别模型。”