在日常交流中,人们经常会使用一些“非语言”信号,例如语调、情绪表达、停顿、重音、节奏等来增强对话互动的效果。高兴、生气、失落、困倦的时候说同一句话,虽然内容一样,但声音肯定大不相同,而且AI的声音比较生硬。目前大部分AI语音生成系统还是根据书面文字来学习说话。也就是说,模型只能知道说话的内容,而不知道人的语速和情绪。一点信号都没有。所以虽然人工智能可以充当主播播报新闻,但是在一些特殊的应用场景,比如小品、相声、脱口秀等语言艺术领域,人工智能还没有能够代替人类说话。MetaAI去年推出了突破性的自然语言处理模型GSLM,打破了传统模型对文本的依赖。GSLM可以通过直接处理原始音频信号来发现结构化内容,而无需使用任何人工标签或文本,就像人类语言学习的过程一样。GSLM使NLP模型能够捕捉口语的表现力,也可以用作下游应用程序的预训练形式,或作为生成工具从给定的输入音频提示生成后续音频。最近,Meta发表了三篇基于GSLM的论文,向更具表现力的NLP模型迈出了一大步。开源textlesslib发布了一个开源TextlessPython库,机器学习开发人员可以在其中更快地试验GSLM组件(编码器、语言模型、解码器)。论文链接:https://arxiv.org/pdf/2202.07359.pdf代码链接:https://github.com/facebookresearch/textlesslibTextlessNLP是一个活跃的研究领域,旨在使NLP相关技术和工具可直接用于口语。通过使用离散语音表示的自监督学习,无文本NLP技术能够在没有书面形式的语言或无法通过基于文本的方法获得的口语信息上开发更有趣的NLP应用程序。Meta的开源textlesslib是一个旨在促进无文本NLP研究的库。该库的目标是加快研究周期并降低初学者的学习曲线。该库提供了高度可配置的开箱即用工具,用于将语音编码为一系列离散值,以及用于将此流解码回音频域的工具。语音-情感转换对于一些富有表现力的发声,例如笑声、哈欠和哭声,研究人员开发的模型已经能够捕捉到这些信号。这些表情对于以人为方式理解交互的上下文至关重要,模型能够辨别可能传达出他们的交流意图或他们试图传达的情绪的细微差别,例如讽刺、烦恼或无聊。论文链接:https://arxiv.org/pdf/2111.07402.pdfDemo链接:https://speechbot.github.io/emotion/语音情感转换(SpeechEmotionConversion)是指词汇内容和说话人身份的保留针对情绪感知情况修改语音语料库的任务。在这篇论文中,研究人员通过将语音分解为由内容单元、音高(f0)、说话者和情绪组成的离散的、不相关的、学习到的表示来解决情绪切换问题作为口语翻译任务。该模型首先通过将内容单元转换为目标情绪来修改语音内容,然后根据这些单元预测语音特征,最后通过将预测的表征输入神经声码器来生成语音波形。这种范式使模型不仅可以发现信号的频谱和参数变化,还可以对非语言发声进行建模,例如插入笑声和消除哈欠。该论文表明,所提出的方法在客观和主观感知情感和音频质量方面均优于基线。实验部分严格评估此类复杂系统的所有组件,并以广泛的模型分析和消融研究作为结尾,以更好地强调所提出方法的架构选择、优点和缺点。例如,在包含五种情绪表达(中性、愤怒、娱乐、困倦或厌恶)的情绪转换任务中,模型需要根据输入音频转换为目标情绪。可以看到整个过程相当于一个端到端的序列翻译。问题,所以插入、删除、替换一些非语言音频信号来切换情绪会更容易。通过实验评估可以看出,与之前最好的情感语音转换模型相比,所提出的模型取得了很大的质量改进。事实上,结果非常接近原始音频的质量(图中浅绿色的原始音频)。情感AI对话MetaAI在两个人工智能代理之间建立了一个自发的、实时的聊天模型。每个智能体的行为因素,比如偶尔的重叠或停顿,都是非常真实的,这对于构建虚拟助手非常有帮助,比如这样的应用场景非常重要,可以让AI更好地理解细微的社交线索和信号,比如能够在与人聊天时捕捉微妙的正面或负面反馈。论文链接:https://arxiv.org/pdf/2203.16502.pdfDemo链接:https://speechbot.github.io/dgslm/本文提出的dGSLM模型是第一个能够生成自然口语对话音频的Textless模型样品。该模型是利用最近关于无监督语音单元发现的工作开发的,结合具有交叉注意力的双塔Transformer架构,在2000小时的双通道原始对话音频(Fisher数据集)上进行训练,没有任何文本或标签数据。dGSLM能够同时在两个通道中生成语音、笑声和其他副语言信号,从而实现对话的自然过渡。颠覆传统NLP在不久的将来,基于TextlessNLP技术的下游应用将呈现井喷之势。由于模型训练不需要资源密集型文本标签或自动语音识别系统(ASR),模型可以直接通过音频信号进行问答。MetaAI的研究人员认为,语音中的亲和力有助于更好地解析句子,从而有助于理解意图并提高问答性能。其中一个应用场景就是语音翻译,也可以称为AI翻译配音(dubbing)。传统的流利度通常是基于文本来完成的,这需要先将音频转换为文本,进行翻译,然后将文本转换为音频信号。比如大火的《鱿鱼游戏》多语言版就采用了这种技术。但是过程的复杂性会让整个系统很难训练,会失去一些口语的表达能力,不仅是因为语调和非语言表达在文本中丢失,而且文本中的语言模型训练也缺乏这些信号处理模块。虽然自监督语音表示方法可以从原始音频中学习离散单元,从而可以消除对文本的依赖,但研究人员认为,TextlessNLP可以胜过传统的复合系统(ASR+NLP),并且还可以集成非语言的vocalizationsandtonesInformation,在音素之上传达丰富的语义和语用信息,这在文本中通常是没有的。随着世界变得越来越数字化,元宇宙也包含越来越多的人工智能驱动的应用程序,这些NPC可以创造新的体验。并且这种新的体验不仅仅局限于文字交流,未来会朝着更流畅的交互方式发展,比如语音和手势。所有这些在使用表示和自我监督学习方面的进步都有可能帮助研究人员摆脱传统的基于文本的模型,并构建更自然和更有吸引力的未来人工智能系统。传统的NLP应用除了缺乏表达能力外,还依赖大量的文本资源,但全球只有少数几种语言拥有如此大规模的标注数据。从长远来看,相信TextlessNLP系统的进步也将有助于让AI为更多人所用,尤其是那些使用没有标准化书写系统的语言和方言的人,例如方言阿拉伯语或瑞士德语.
