“还有46分钟,董老师的假期就结束了。”这是对董昱辉最新视频的评论,点赞过百。在他消失在东方选秀直播间的那几天,粉丝纷纷涌入他的个人账号,调侃“只要这个男人放个假,就会有几十万人爱上他”。但是,对于顶级主播来说,无论多么敬业,也总会有停播的时候。毕竟连续说几个小时还得是那种妙语连珠,既消耗脑力又消耗体力。在这样的情况下,不仅无法“24小时直播”,就连不轮班的长期唠叨也不是每个人都能承受的。不过话虽如此,如果有机器加持……尤其是这段时间,虚拟人等技术大爆发,很难不让人脑洞大开——有了AI的能力,是不是可以让头部主播“我”24小时驻守直播间?再者,没有董老师的双语能力,是否可以无缝切换语言,直接走向国际市场?24小时直播,难在哪里?从目前实施的各种AI技术来看,这些“脑洞”并非没有可能。在图像技术方面,AI直接生成虚拟图像或者“改变”主播的脸并不难。比如国外的假“糖哥”在抖音上火了很久,国内的刘烨熙、李星澜等虚拟形象在国内社交平台上也很火,“AI合成”的影子几乎看不见视频中,评论中也有不少惊艳的声音。不仅如此,AI生成的图像甚至视频的效果也越来越精细。国外的OpenAI的DALL·E2,谷歌最新的Imagen和Parti,国内的致远CogVideo和微软亚洲研究院NUWA-Infinity等,都是最近几个月出现的新技术。结果。上述图像技术很多已经开放API接口或申请试用,类似的开源模型也很多,基本可以“人人玩”。基于这些技术,现在国内外各种平台上出现了很多“24小时直播”的AI博主。但是当你点开之后,你会发现这些AI博主的人气远不如真人主播或者真人玩的虚拟主播。△24小时AI虚拟主播,半天时间只有167人“看”直播,与我们预期的“24小时直播”还有点距离:互动时,大部分AI主播能做的很有限,有的只能简单的唱几首歌(限定歌单),或者按照设定的指令回复;说话时,AI合成的虚拟主播声音不仅不如真人主播生动,也无法主动制造一些情绪上的“惊喜”。这背后是大多数虚拟AI主播的痛点——虽然近年来图像生成技术有所突破,但语音语言AI的技术门槛仍然很高。以董宇辉的直播间为例,虽然只要董老师愿意,合成一张“AI董宇辉”的形象并不难;语音,甚至听懂了直播间外小助理的“指令”,但依然难以完成。这背后对应的是语音合成、声音识别、语音识别等各类语音语言AI的综合能力。更进一步,想要将这个直播间国际化,对语音能力也会提出更高的要求。比如,至少需要可以在线实时翻译的AI字幕:在此基础上,想要打造一个无障碍的直播间,还需要进一步掌握同声传译的能力。好消息是,现在,越来越多的科技大公司注意到了这条赛道,并且近年来一直在加大投入。国内外各大厂商纷纷增加代码。从理论研究的角度来看,语音语言AI方向的论文已经很多。亚马逊、谷歌等大公司在对话AI、NLP、语言处理等方面发表了成百上千篇AI论文,其中不乏顶级论文;仅在2018年,Meta就拿下了EMNLP和ACL两大NLP会议的最佳论文……(当然也有发论文少的,比如Apple更喜欢申请专利)国内公司如BAT,华为、京东等近年来也建立了自己的声学或NLP实验,在NAACL、AAAI、ACL等多个顶级会议上获得了各种论文奖项。△ACL2022部分优秀论文奖以IWSLT(InternationalSpokenLanguageMachineTranslationCompetition)为例,是全球最具影响力的口语机器翻译竞赛之一。就在今年的比赛中,华为在语音转语音、离线语音翻译、等长口语翻译三个任务中获得了四个语言方向的TOP1。不过,除了研究之外,各大厂商对于语音语言AI技术的落地也有着不同的想法。除了根据最新研究对自家产品(语音助手、搜索引擎等)进行优化外,部分厂商选择直接将模型开源或做成AI框架供开发者调用。这样的AI能力对于很多从未接触过AI的开发者来说“太深奥”了,甚至不知道应该怎么用、用在什么地方。在一定程度上,也导致了很多开发者无法接触到最新的语音和语言AI技术。尤其是近几年非常火的同声传译AI,对实时性和模型性能都有一定的要求。相应的论文和工作坊也越来越多地出现在峰会上。对于直播等行业,为了扩大受众和影响力,同声传译AI也是必不可少的技术。那么,有没有门槛更低的落地方式呢?现在很多厂商开始尝试新的方法——以华为为例,他们为移动开发者打造了一套基于华为移动核心服务(HMSCore)的专用机器学习服务(MLKit)工具。包。在此基础上,开发者无需掌握AI的技术细节,就可以在自己的移动应用或应用中使用这些语音和语言技术。比如我们刚才看到的AI字幕(在线文本翻译)和同声传译,就是基于华为工具包中的语音和语言AI能力,可以轻松制作出来的。开发门槛越来越低。说了这么多,如何上手和使用呢,来看看前辈们是怎么做的吧。例如,在华为开发者论坛上,有人基于MLKit中的实时语音识别和实时语音转录功能开发了一款适合奶奶的语音搜索和购物APP。其中,语音功能的实现,步骤并不复杂。首先需要做一些开发准备,包括:在华为开发者联盟网站完成实名注册,配置AppGalleryConnect,在项目中配置HMSCoreSDK的Maven仓库地址。然后,集成相关的服务SDK。以实时语音识别服务为例,代码如下:dependencies{//引入实时语音识别服务插件实现'com.huawei.hms:ml-computer-voice-asr-plugin:3.5.0.303'}然后就可以进入语音服务阶段了。仍以实时语音识别服务为例。设置好应用的认证信息后,首先要参考支持的语言列表LANGUAGE,创建一个设置实时语音识别参数的intent。mSpeechRecognizer.getLanguages(newMLAsrRecognizer.LanguageCallback(){@OverridepublicvoidonResult(List
