当前位置：首页 > 科技赋能

王小川携虚拟主播亮相RISE大会，开创视觉语音合成先河

时间：2024-05-22 11:17:21 科技赋能

（搜狗王小川在香港RISE技术峰会上演示虚拟主播）2019年7月11日，央视主播“姚雪松”报道了相关新闻香港RISE科技峰会视频出现在主讲台上方的大屏幕上。

他在这里吗？他不在这儿。

是搜狗的王小川将“他”带到了这里。

这是世界上第一个虚拟主播。

搜狗利用姚雪松1.5小时的音视频数据，结合语音、图像等多模态信息，进行联合建模训练。

通过输入RISE会议的文字记录，搜狗可以快速预测并生成与真人无异的广播效果。

机器之所以能以“人”的形象如此轻松地播报新闻，得益于搜狗多年来在人工智能方面积累的技术实力。

7月，搜狗获得暴雪挑战赛语音合成竞赛冠军，上个月，搜狗视觉研究团队获得CVPR WAD挑战赛冠军。

早在去年，搜狗就在机器翻译领域取得突破，夺得WMT冠军。

在频频获奖的同时，各种AI技术不断推出并逐步落地。

搜狗语音识别准确率已超过98%，日均语音输入通话次数达到峰值4亿次；唇形识别在垂直应用领域非常准确。

率超过90%。

以语言为核心，搜狗逐步建立了独特的人工智能数据和技术壁垒。

提及本次发布的虚拟主播的技术难点，该项目技术负责人表示：“最大的难点在于让机器只用一段文字来预测并生成高度真实的视频，同时保持音频的真实感。

”视频中主播的面部表情和嘴唇动作很难做到自然一致。

”目前市场上还没有类似的产品。

通过业界领先的语音合成和图像生成技术，搜狗率先实现了目前虚拟主播的真实效果。

。

虚拟主播的技术实现，意味着AI拥有了更丰富的表达方式，从文字表达到音视频的富媒体表达。

虚拟主播技术的应用场景非常广泛。

首先，作为一种具备视频内容制作能力的技术，该技术可以应用于新闻、媒体内容等场景，自动、快速地实时生成富媒体内容。

其次，虚拟主播技术还可以根据用户上传的某个人物（明星、朋友、家人等）的单张图片，实时生成该人物的虚拟主播形象，以便用户与其进行交流。

面对面。

结合搜狗语音交互系统知音OS的能力，我们可以为虚拟主播配备交互能力，使得这项技术适用于教育、医疗、客服等多个行业，节省了大量的人力成本。

如果用在教育行业，虚拟主播可以成为一个好脾气的老师，不厌其烦地一遍又一遍地帮助用户指导发音和口型。

此外，还可以应用于各种具有交互能力的智能软硬件。

如果用在带屏幕的智能音箱中，虚拟主播可以发展成为虚拟个人助理，用户可以从简单的语音交互转变为与真实的虚拟角色交互。

虚拟主播还可能催生带有情感的互动应用，比如帮助粉丝和偶像实现“面对面”互动的追星应用；上传用户喜欢的图片并与搜狗问答技术相结合，与用户进行定制问答的配套应用程序等等。

虚拟主播将如何渗透到我们的生活中，目前仍是未知数。

也许有一天，它们会打破次元壁，遍布时空各处；未来，无论是银行服务、电视节目，还是演唱会的嘉宾，也许你都能看到。

该技术人员表示：“未来，除了优先提升人机交互体验外，我们还将持续优化虚拟主播的真实感，对虚拟主播的情感表达进行更深入的研究。

”他解释说，搜狗这次展示的虚拟主播并没有添加“情感”，显得比较生硬。

王小川携虚拟主播亮相RISE大会，开创视觉语音合成先河相关文章