本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。吃饭的时候,你想和对方聊聊,但周围嘈杂的声音让你根本不知道他在说什么?或者,想和听障人士交流,对方却听不见?现在,检测面部肌肉变化的AI来了。只要动动嘴巴,即使不发出声音,它也能知道你在说什么。这是EMNLP2020的最佳论文,加州大学伯克利分校的两位作者使用AI和电极制作了一个“无声语音”检测模型,可以检测出你想说但没有说出来的内容。这背后的原理是什么,一起来了解一下吧。使用电极收集您发出柔和哔哔声的证据。“无声”的本质是人说话时面部和颈部肌肉的变化。坦率地说,即使你在对口型时没有发出声音,你的脸和脖子也会出卖你。而可以检测“无声语音”的AI也是这样做出来的。采集数据时,研究人员会先在实验者的面部等部位贴上8个贴片,每个贴片都是一个“监测肌肉变化”的传感器,像这样:浊音,对应肌电图,如下图(会记录两种语音数据,一种每句约4个词,另一种每句约16个词):这种方法可以将语音的变化与语音的类型相对应。在记录数据的过程中,也会记录一个“口型同步”的肌电图,但不需要声音,即“无声”。之所以采集两张EMG,是因为人在无声说话时,肌肉的变化与大声说话时有些不同。例如,某些发音部位的肌肉震颤幅度会变小,语速也会发生变化。但是如果你想在安静的环境中根据肌肉的变化来识别你想说的声音,你只能在口型同步时使用无声的肌电图。显然,这些原因使得人工智能的训练变得非常困难。为了尽可能提高识别精度,研究人员额外采用了一种结构来减少模型损失。不到20个小时的语音采集,效果还不错那么,用这种方法训练出来的模型效果如何呢?研究人员在封闭词汇条件和开放词汇条件下测试了该模型。其中,封闭词集主要指介词、限定词、连词等词(如of、and)。这种词汇集小,容易训练,AI也容易形成“肌肉记忆”。开放词集的范围要广得多,包括名词、形容词和其他词。现在的话可以说是数不胜数。人工智能要识别这些词要困难得多。判断方式为WER,具体计算方式如下(原理与计算原句错误率类似):目前该AI在闭词集上的训练水平已经达到3.6%WER(thesmallerthebetter):关于开放词集的检测,经过AI训练后,WER也从88%的高水平下降到68%。虽然在开放词集上的检测看起来并不完美,但不要忘记这个模型使用的数据集并不大。封闭检测数据集语音数据小于1小时;开放检测数据集只有18.6小时的语音数据。而且,这些语音集也是无声和有声数据的集合。不到20个小时的语音数据,训练效果就达到了这个水平。如果能够获得更大的数据样本,模型的效果将会进一步提升。作者介绍来自加州大学伯克利分校NLP组的DavidGaddy。他通常的研究方向是无监督学习、语法分析和无声语音。第一部作品的导师DanielKlein,主要研究无监督学习、语法分析、信息抽取和机器翻译。OneMoreThing的EMNLP的各种NLP研究没有出路:北京中科院和北京信息工程研究所的研究人员也发明了讽刺检测模型。该人工智能模型将通过同时检测文本和图像来进行多模态语义理解,从而检测一个人在社交媒体上的动态是否具有讽刺意味。就像这句话:“这真是一场满座的比赛,我们连座位都抢了。”表面上看,这是一句很正常的句子,但加上图片后,画风突然变得怪异起来:又比如这句话:“看起来很好吃”。然而,当你看到散落在盒子边缘的奶酪和馅料时,很明显这又是一句充满讽刺意味的话。现在,这些语义信息已经被输入到人工智能中,并训练出了一个“懂得听讽刺”的模型。目前该模型已在推特等社交媒体上得到验证,取得了84.33%的良好效果。看到这个AI模型,你还敢偷偷说老板的坏话吗?论文地址:https://arxiv.org/abs/2010.02960
