当前位置: 首页 > 科技赋能

搜狗同声传译3.0上线, AI同声传译首次实现“能听、能看、能想”

时间:2024-05-20 01:46:24 科技赋能

12月21日,首个具备多模态认知能力的搜狗同声传译3.0在极客公园举行创新大会上使用。

搜狗同声传译3.0基于搜狗独创的“语境引擎”,以“多模态”和“自主学习”为核心,加入视觉和思维能力,让机器同声传译不仅能听,还具备看、看的能力。

第一次明白。

理解和推理能力引领人工智能同声传译进入多模态认知时代。

搜狗同声传译技术升级,解锁两大“超能力”。

AI同声传译一直是人工智能技术的重点领域。

2018年,搜狗在“第三届乌镇互联网大会”上发布了业界首款商用人工智能同传产品——搜狗同声传译1.0。

在打造这一新品类的同时,还利用AI技术帮助同声传译行业,有效促进跨语言沟通和表达。

2018年发布的搜狗同声传译2.0,为用户提供了更丰富的个性化定制能力,可以根据用户实时定制识别和翻译。

两代搜狗同传的核心能力都是“听”。

它们均采用搜狗领先的语音识别和机器翻译技术,将声音实时转换为相应的中英文字幕。

然而,通过上千台机器同声传译的实际应用,搜狗发现业界主流的语音同声传译系统无法稳定、高质量地满足多样化演讲场合的需求,在专业人士的识别和翻译方面存在问题。

言语内容中的词汇。

这种情况极大地影响了机器同声传译的实际效果。

为了解决上述问题,搜狗在人工智能同声传译领域首创了“语境引擎”,使搜狗同声传译解锁了“能看”和“能懂、能推理”两项新技能。

以“能听”为基础。

不仅可以通过“观看”自主学习演讲者的报告内容,还可以通过“理解”和“思考”进行高质量的识别和翻译,再次引领行业的技术进步。

AI同声传译技术新突破,“边看边思考”,与演讲者一起“朗读”,意味着同声传译员首次具备视觉能力。

基于搜狗OCR(光学字符识别)技术,搜狗同声传译可以实时精准“观看”演讲者的PPT内容,将PPT的图像内容转换为语言和文字,充分获取当前演讲的个性化信息。

“能懂、能推理”是指同声传译员具有“换位思考”的能力。

这得益于搜狗上下文引擎的应用。

该技术的原理是基于搜狗知识图谱和百科全书的知识推理能力。

它通过OCR技术获取的语音内容自动生成核心知识,并通过搜狗领先的知识图谱——搜狗智立方的实时推理扩展获取充足的背景知识。

同时,基于搜狗百科中英文术语库,进行中英文双语对比,实时优化同声传译识别和翻译效果。

搜狗同声传译3.0基于搜狗上下文引擎开发,为说话者构建个性化的认知上下文,可以与说话者一起“思考”。

这无疑是AI同声传译领域的又一重大技术创新。

尤其是通过多种“感官”的运用,搜狗同声传译不仅可以实现更快、更准确的翻译,还可以使其变得更自然、更专业、更智能。

数据显示,在“听”“看”“想”三位一体的影响下,搜狗多模态同声传译系统对PPT内容的识别准确率提升了21.7%,翻译准确率提升了40.3% %。

未来,该系统将应用于会议演讲、视频翻译、实时直播字幕等场景,为人们提供准确流畅的同声传译服务。

搜狗再次引领人工智能同声传译进入新时代。

搜狗同声传译一直代表着人工智能同声传译领域的顶尖水平。

因此,每一次技术创新和产品变革都对行业具有显着的引领作用。

三年前,搜狗首次发布商用人工智能同声传译。

借助搜狗领先的语音识别和机器翻译技术,可以更准确、更快速地将声音实时转换为对应的中英文字幕,与人工同声传译相辅相成,彻底改变了各类行业会议只能依赖的难题。

人工同声传译,容错率低。

在开创新品类的同时,也引领同声传译行业进入AI时代。

此次推出的搜狗同声传译3.0,采用了搜狗独创的语境引擎。

除了“听”外,还可以“边看边思考”,大大提高了识别准确率和翻译准确率。

AI同声传译通信行业由此迎来了“多模态认知”的新时代。