当前位置: 首页 > 科技赋能

王小川携虚拟主播亮相RISE大会,开创视觉语音合成先河

时间:2024-05-22 11:17:21 科技赋能

(搜狗王小川在香港RISE技术峰会上演示虚拟主播)2019年7月11日,央视主播“姚雪松”报道了相关新闻香港RISE科技峰会视频出现在主讲台上方的大屏幕上。

他在这里吗?他不在这儿。

是搜狗的王小川将“他”带到了这里。

这是世界上第一个虚拟主播。

搜狗利用姚雪松1.5小时的音视频数据,结合语音、图像等多模态信息,进行联合建模训练。

通过输入RISE会议的文字记录,搜狗可以快速预测并生成与真人无异的广播效果。

机器之所以能以“人”的形象如此轻松地播报新闻,得益于搜狗多年来在人工智能方面积累的技术实力。

7月,搜狗获得暴雪挑战赛语音合成竞赛冠军,上个月,搜狗视觉研究团队获得CVPR WAD挑战赛冠军。

早在去年,搜狗就在机器翻译领域取得突破,夺得WMT冠军。

在频频获奖的同时,各种AI技术不断推出并逐步落地。

搜狗语音识别准确率已超过98%,日均语音输入通话次数达到峰值4亿次;唇形识别在垂直应用领域非常准确。

率超过90%。

以语言为核心,搜狗逐步建立了独特的人工智能数据和技术壁垒。

提及本次发布的虚拟主播的技术难点,该项目技术负责人表示:“最大的难点在于让机器只用一段文字来预测并生成高度真实的视频,同时保持音频的真实感。

”视频中主播的面部表情和嘴唇动作很难做到自然一致。

”目前市场上还没有类似的产品。

通过业界领先的语音合成和图像生成技术,搜狗率先实现了目前虚拟主播的真实效果。

虚拟主播的技术实现,意味着AI拥有了更丰富的表达方式,从文字表达到音视频的富媒体表达。

虚拟主播技术的应用场景非常广泛。

首先,作为一种具备视频内容制作能力的技术,该技术可以应用于新闻、媒体内容等场景,自动、快速地实时生成富媒体内容。

其次,虚拟主播技术还可以根据用户上传的某个人物(明星、朋友、家人等)的单张图片,实时生成该人物的虚拟主播形象,以便用户与其进行交流。

面对面。

结合搜狗语音交互系统知音OS的能力,我们可以为虚拟主播配备交互能力,使得这项技术适用于教育、医疗、客服等多个行业,节省了大量的人力成本。

如果用在教育行业,虚拟主播可以成为一个好脾气的老师,不厌其烦地一遍又一遍地帮助用户指导发音和口型。

此外,还可以应用于各种具有交互能力的智能软硬件。

如果用在带屏幕的智能音箱中,虚拟主播可以发展成为虚拟个人助理,用户可以从简单的语音交互转变为与真实的虚拟角色交互。

虚拟主播还可能催生带有情感的互动应用,比如帮助粉丝和偶像实现“面对面”互动的追星应用;上传用户喜欢的图片并与搜狗问答技术相结合,与用户进行定制问答的配套应用程序等等。

虚拟主播将如何渗透到我们的生活中,目前仍是未知数。

也许有一天,它们会打破次元壁,遍布时空各处;未来,无论是银行服务、电视节目,还是演唱会的嘉宾,也许你都能看到。

该技术人员表示:“未来,除了优先提升人机交互体验外,我们还将持续优化虚拟主播的真实感,对虚拟主播的情感表达进行更深入的研究。

”他解释说,搜狗这次展示的虚拟主播并没有添加“情感”,显得比较生硬。