人工智能的创造令人惊叹,仍有许多挑战需要克服事件频频出现在公众视野中。同年11月30日,OpenAI发布的聊天机器人模型ChatGPT免费发布,引起人们对AIGC的广泛兴趣。各种花哨的问题,比如改代码,聊知识,问生活……ChatGPT的“机智”和“知识”令人印象深刻,耳目一新。ChatGPT之所以受到广泛关注,是因为OpenAI先后发布了三代GPT模型,每一代模型的参数都比上一代增加了10倍甚至100倍,进入GPT-3.5代的模型采用RLHF(fromhumanfeedbackIntensivelearning)方法可以更好地理解人类语言的含义,也就是在与人类进行聊天、写文章、回答查询、检查代码错误等互动时,更像是一个“人”,在“认真思考”之后,认真给出答案。面对这样的热点圈内人士,VolcanoSpeechandAudioSynthesisAlgorithms研究员Stephen表示:“AIGC之所以最近这么火,离不开AIGC一步一步的完善。人工智能产生的内容质量的改善。人工智能作为一种生产工具,引发了更高的效率。AIGC包含了文本生成、音频生成、图像生成、视频生成等多个方向,进而会刺激其背后人工智能技术的快速发展,并逐渐体现出巨大的商业价值。”作为AI语音的主要难点,我们常感慨,AI画画让你领略到AI的“想象力”,而以ChatGPT为代表的AI问答,其博大精深,答案的“可读性”会让你震撼。TA可以像真人一样正确理解内容,通过匹配人的音色和符合当时情况的语调来表达,这在火山语音(字节跳动AILab智能语音音频团队)中是与番茄小说的合作并不罕见,AI算法生成的语音,让你直接听任何文字版的小说,听起来“更聪明”:差异化的音色再配上适当的语调,朗读时你就成了“戏”,“演绎”喜怒哀乐。据了解,要让AI能说能做,首先要保证输出内容不被误读,这就需要文本分析模型来分析。》在番茄小说中,我们使用NLP领域广泛使用的Transformer架构模型BERT作为文本分析前端。主要是通过正则化模型(TN)和混合神经网络的多任务前端模型网络和规则,结合长期人工规则修正,不断提升前端句子级准确率,通过蒸馏、量化等技术降低算力需求。“此外,为了让语音听起来更好听,团队还在常规TTS流程的基础上加入了更多的功能模块,实现角色归属和情绪控制。比如在角色归属中也使用了BERT结构来进行对话judgment和referentialdisambiguation两个任务的建模也使用了类似的情感预测结构。如果能够将音色和情绪分析耦合,就可以更好地控制合成语音的表现力,实现不同音色和不同情绪的灵活组合,这是非常重要的。》重要的是,为了让AI能够理解各类小说的文本,火山语音还率先提出了“AI文本理解”模型,这是一个多任务的长文本理解AI系统,可以自动区分从小说文本中识别人物对话,区分对话中要表达的情感,并预测句子之间的合理停顿,大幅提升优质AI有声读物的制作效率,有效突破人工标注的制作瓶颈。“Al文本理解”模型更进一步,VolcanoSpeech团队在满足发音清晰、节奏连贯、语调起伏的基础上,自研了半监督学习的端到端风格控制声学模型,使声音跟随Plutchik的情绪之轮Emotions)表达出快乐、悲伤、惊讶和恐惧等多种情绪色彩.通过情感传递,使原本没有情感的发音获得多情感合成的效果。更好地表达“有声表达”,对人类语言中经常出现的“副语言”现象进行了精细化的建模和还原,实现了重音停顿、疑问句、笑声和哭声、各种叹息和呼喊常见于有声读物,实现文字内容的精彩演绎。“接近真实直播的效果,让最终的AI语音能够体现出不同角色在不同语境下的效果,这是我们一直追求的目标。未来,我们希望能够通过通过文本-语音联合训练训练大型模型,提取和表征不同上下文中的文本,提高字符识别的成功率;依托多说话人语音合成模型,解耦情感、风格、音色、口音等属性,并能够自由迁移;同时,生成匹配的文字描述背景音,增强听有声读物时的代入感。”提升内容质量和生产效率是AIGC的核心价值。在更多的实践中,我们发现,除了文字和图像,人们对语音交互的应用范围更广,例如,人们在家中经常通过语音交互发出命令来控制各种电器;出行时,他们使用车载语音助手完成导航和餐厅预订;质量和生产效率。火山语音团队也做了更多相关的创新尝试。比如在短视频已经深入人心的今天,面对UGC群发视频创作随意录制、音质不可控等现实因素,通过Volcano语音智能字幕解决方案自动为视频创作添加字幕。它不仅可以识别汉语、英语、粤语等常见语言和方言,还可以识别歌曲。对此,火山语音音频理解方向产品经理W补充道:“在视频内容的制作中,传统的字幕方式需要创作者对视频进行多次口述和校对,还需要对帧根据开始时间逐帧制作,往往在10分钟以内。视频需要几个小时的后期制作时间才能完成。另外,字幕组必须精通多国语言,熟悉字幕文件的制作。视频制作的综合成本非常高,对于用户的日常生活来说已经是遥不可及的了。”为了降低创作门槛,让所有创作者轻松制作优质视频内容,记录美好生活,火山之声自主研发了智能字幕解决方案,不仅可以高效识别方言和歌曲,还可以对于语言混合、语音和歌声混合的场景有很好的识别效果。此外,通过对用户自创内容的音频特征和领域的分析,以及算法优化,大大提高了语音识别能力。嘈杂场景、多人通话等复杂场景的表现,尤其是面对移动端用户对功能响应时间的高要求,即希望字幕能够快速、准确。为此,火山之声做了很多工程优化和策略,一个1分钟的视频只需要2-3秒就可以完成。众所周知,面对同样的内容,人类对于音频信息的获取效率远低于文本信息,而将语音转化为文本进行记录和使用的关键在于语音识别,比如火山之声推出的“千词转文”,真正的-“一字抵千字”的时间字幕解决方案,是通过“语音识别+语音翻译”的AI环节,让跨国、跨语言交流更流畅;通过自动生成会议记录和会议纪要,大大提高参会人员的素质。工作效率大大降低,会后整理和会中记录的工作量大大减少。可以预见,随着科技的飞速发展,AI语音将增加人机交互的信息输出渠道,提高信息获取效率。同样面对AIGC带来的质效提升问题,据火山语音及语音交互产品经理Y表示,AIGC确实有望落地到智能语音交互的辅助场景,可以包括对话摘要,语音推荐、情绪抚慰、工单汇总等客服功能,辅助解决方案,提高生产效率。例如,当触发人机对话切换为人工时,可以自动生成人机对话的对话摘要,辅助人工更快地了解用户诉求,避免突然查看聊天记录的情况在寒冷的场景中;在与人对话过程中,通过了解用户的语音技能,利用AIGC能力生成答案供客服参考,提高客服对话效率。“此外,它还可以起到处理异常情况的作用。比如当用户出现烦躁、愤怒等情绪时,AICG可能会自动生成安慰词,供客服参考,提高服务满意度。未来,随着多-模态技术和AIGC随着技术的不断成熟,或许可以通过虚拟数字人代替部分人力,以人机共生的形式直接服务客户,将显着降低人力成本,提高服务效率。”但他也明确表示,如今的AIGC仍无法真正独立制作内容,还停留在辅助人类提高内容制作效率的阶段,成本、版权、实用性仍是AIGC发展的瓶颈。ChatGPT给出的惊人答案,或者番茄小说中AI感人肺腑的声音,连马斯克都惊叹:我们离强大而危险的人工智能已经不远了。这似乎预示着AIGC时代即将来临。然而,斯蒂芬,一个多年在AI算法一线工作的火山语音音频合成算法研究员,有着更加清醒的判断,他指出:“AIGC背后的技术未来可能会进行多模态融合,而不仅仅是单一模式。任务,就像人类在创造内容的过程中,不仅仅基于单一的知识形式构想新的内容。例如,在生成交互式数字人的任务中,目前主要任务是人脸、表情,未来会使用生成模型分别对这些特征进行预测,从而提高各个特征之间的协同效应和减少单独录制带来的工作量;此外,它还会基于多模态理解任务获得的表示,根据正在说话的用户的面部表情、语气和肢体动作,对生成的图像和语音给予相应的反馈。”除了技术发展的预测之外,不可忽视的一点是,AIGC在成本、版权、实用性等方面还存在巨大差距。挑战。他认为,目前AIGC的成本居高不下。可见,高质量的文本、图像和视频生成技术等,对应的是在训练和推理阶段消耗大量的硬件资源,高校和研究机构难以参与。不利于促进行业发展。“此外,在版权保护方面,目前产生的一些内容可能会被用于非法活动,因此对内容添加版权保护变得越来越重要,比如图像和音频水印,但在这个过程中添加的时候,你要考虑不要因为切割、混合等后处理方式而使水印失效。“在刚刚过去的2022年,虽然图像和视频生成方向的技术应用效果有了明显提升,但仍需要大量的人工筛选才能真正实现内容;以及上下文相关的漫画和视频的生成基于长文本既需要保证场景,还有很多技术问题需要解决,防止人工智能成为“人工弱智”是一个挑战,所以在实用性上还有更大的提升空间。或许认为,AIGC作为一种新型的内容生产方式受到关注,充分说明了各行各业对内容的渴望,尤其是互联网平台,如何高效地理解、创造、交互和分发内容确实带来了今天的AI技术,机遇与挑战并存。
