(搜狗王小川在香港RISE技术峰会上演示虚拟主播)2019年7月11日,央视主播“姚雪松”报道了相关新闻香港RISE科技峰会视频出现在主讲台上方的大屏幕上。
他在这里吗?他不在这儿。
是搜狗的王小川将“他”带到了这里。
这是世界上第一个虚拟主播。
搜狗利用姚雪松1.5小时的音视频数据,结合语音、图像等多模态信息,进行联合建模训练。
通过输入RISE会议的文字记录,搜狗可以快速预测并生成与真人无异的广播效果。
机器之所以能以“人”的形象如此轻松地播报新闻,得益于搜狗多年来在人工智能方面积累的技术实力。
7月,搜狗获得暴雪挑战赛语音合成竞赛冠军,上个月,搜狗视觉研究团队获得CVPR WAD挑战赛冠军。
早在去年,搜狗就在机器翻译领域取得突破,夺得WMT冠军。
在频频获奖的同时,各种AI技术不断推出并逐步落地。
搜狗语音识别准确率已超过98%,日均语音输入通话次数达到峰值4亿次;唇形识别在垂直应用领域非常准确。
率超过90%。
以语言为核心,搜狗逐步建立了独特的人工智能数据和技术壁垒。
提及本次发布的虚拟主播的技术难点,该项目技术负责人表示:“最大的难点在于让机器只用一段文字来预测并生成高度真实的视频,同时保持音频的真实感。
”视频中主播的面部表情和嘴唇动作很难做到自然一致。
”目前市场上还没有类似的产品。
通过业界领先的语音合成和图像生成技术,搜狗率先实现了目前虚拟主播的真实效果。
。
虚拟主播的技术实现,意味着AI拥有了更丰富的表达方式,从文字表达到音视频的富媒体表达。
虚拟主播技术的应用场景非常广泛。
首先,作为一种具备视频内容制作能力的技术,该技术可以应用于新闻、媒体内容等场景,自动、快速地实时生成富媒体内容。
其次,虚拟主播技术还可以根据用户上传的某个人物(明星、朋友、家人等)的单张图片,实时生成该人物的虚拟主播形象,以便用户与其进行交流。
面对面。
结合搜狗语音交互系统知音OS的能力,我们可以为虚拟主播配备交互能力,使得这项技术适用于教育、医疗、客服等多个行业,节省了大量的人力成本。
如果用在教育行业,虚拟主播可以成为一个好脾气的老师,不厌其烦地一遍又一遍地帮助用户指导发音和口型。
此外,还可以应用于各种具有交互能力的智能软硬件。
如果用在带屏幕的智能音箱中,虚拟主播可以发展成为虚拟个人助理,用户可以从简单的语音交互转变为与真实的虚拟角色交互。
虚拟主播还可能催生带有情感的互动应用,比如帮助粉丝和偶像实现“面对面”互动的追星应用;上传用户喜欢的图片并与搜狗问答技术相结合,与用户进行定制问答的配套应用程序等等。
虚拟主播将如何渗透到我们的生活中,目前仍是未知数。
也许有一天,它们会打破次元壁,遍布时空各处;未来,无论是银行服务、电视节目,还是演唱会的嘉宾,也许你都能看到。
该技术人员表示:“未来,除了优先提升人机交互体验外,我们还将持续优化虚拟主播的真实感,对虚拟主播的情感表达进行更深入的研究。
”他解释说,搜狗这次展示的虚拟主播并没有添加“情感”,显得比较生硬。