当前位置：首页 > 科技赋能

搜狗同声传译3.0上线， AI同声传译首次实现“能听、能看、能想”

时间：2024-05-20 01:46:24 科技赋能

12月21日，首个具备多模态认知能力的搜狗同声传译3.0在极客公园举行创新大会上使用。

搜狗同声传译3.0基于搜狗独创的“语境引擎”，以“多模态”和“自主学习”为核心，加入视觉和思维能力，让机器同声传译不仅能听，还具备看、看的能力。

第一次明白。

理解和推理能力引领人工智能同声传译进入多模态认知时代。

搜狗同声传译技术升级，解锁两大“超能力”。

AI同声传译一直是人工智能技术的重点领域。

2018年，搜狗在“第三届乌镇互联网大会”上发布了业界首款商用人工智能同传产品——搜狗同声传译1.0。

在打造这一新品类的同时，还利用AI技术帮助同声传译行业，有效促进跨语言沟通和表达。

2018年发布的搜狗同声传译2.0，为用户提供了更丰富的个性化定制能力，可以根据用户实时定制识别和翻译。

两代搜狗同传的核心能力都是“听”。

它们均采用搜狗领先的语音识别和机器翻译技术，将声音实时转换为相应的中英文字幕。

然而，通过上千台机器同声传译的实际应用，搜狗发现业界主流的语音同声传译系统无法稳定、高质量地满足多样化演讲场合的需求，在专业人士的识别和翻译方面存在问题。

言语内容中的词汇。

这种情况极大地影响了机器同声传译的实际效果。

为了解决上述问题，搜狗在人工智能同声传译领域首创了“语境引擎”，使搜狗同声传译解锁了“能看”和“能懂、能推理”两项新技能。

以“能听”为基础。

不仅可以通过“观看”自主学习演讲者的报告内容，还可以通过“理解”和“思考”进行高质量的识别和翻译，再次引领行业的技术进步。

AI同声传译技术新突破，“边看边思考”，与演讲者一起“朗读”，意味着同声传译员首次具备视觉能力。

基于搜狗OCR（光学字符识别）技术，搜狗同声传译可以实时精准“观看”演讲者的PPT内容，将PPT的图像内容转换为语言和文字，充分获取当前演讲的个性化信息。

“能懂、能推理”是指同声传译员具有“换位思考”的能力。

这得益于搜狗上下文引擎的应用。

该技术的原理是基于搜狗知识图谱和百科全书的知识推理能力。

它通过OCR技术获取的语音内容自动生成核心知识，并通过搜狗领先的知识图谱——搜狗智立方的实时推理扩展获取充足的背景知识。

同时，基于搜狗百科中英文术语库，进行中英文双语对比，实时优化同声传译识别和翻译效果。

搜狗同声传译3.0基于搜狗上下文引擎开发，为说话者构建个性化的认知上下文，可以与说话者一起“思考”。

这无疑是AI同声传译领域的又一重大技术创新。

尤其是通过多种“感官”的运用，搜狗同声传译不仅可以实现更快、更准确的翻译，还可以使其变得更自然、更专业、更智能。

数据显示，在“听”“看”“想”三位一体的影响下，搜狗多模态同声传译系统对PPT内容的识别准确率提升了21.7%，翻译准确率提升了40.3% %。

未来，该系统将应用于会议演讲、视频翻译、实时直播字幕等场景，为人们提供准确流畅的同声传译服务。

搜狗再次引领人工智能同声传译进入新时代。

搜狗同声传译一直代表着人工智能同声传译领域的顶尖水平。

因此，每一次技术创新和产品变革都对行业具有显着的引领作用。

三年前，搜狗首次发布商用人工智能同声传译。

借助搜狗领先的语音识别和机器翻译技术，可以更准确、更快速地将声音实时转换为对应的中英文字幕，与人工同声传译相辅相成，彻底改变了各类行业会议只能依赖的难题。

人工同声传译，容错率低。

在开创新品类的同时，也引领同声传译行业进入AI时代。

此次推出的搜狗同声传译3.0，采用了搜狗独创的语境引擎。

除了“听”外，还可以“边看边思考”，大大提高了识别准确率和翻译准确率。

AI同声传译通信行业由此迎来了“多模态认知”的新时代。

搜狗同声传译3.0上线， AI同声传译首次实现“能听、能看、能想”相关文章