当前位置: 首页 > 科技赋能

从智能语音到机器翻译!解读搜狗人工智能攻势

时间:2024-05-22 12:03:40 科技赋能

文| 8月初,搜狗CEO王小川的一封内部邮件表示,搜狗即将赴美IPO,这也让搜狗成为了互联网圈讨论的焦点。

近日,搜狗语音交互中心机器翻译团队也取得了优异的成绩,在国际顶级机器翻译大赛WMT(Workshop on Machine Translation)中人评的汉英、英汉机器翻译比赛中获得冠军。

(WMT机器翻译竞赛评分表,第一个是搜狗团队的机器翻译系统)WMT是机器翻译领域国际顶级评测赛事之一。

从今年年初至今,共举办了12届机器翻译比赛。

它由国际机器翻译研讨会面向新闻领域,提供统一的数据集,采用机器评分和人工评分两种评估方式,并以竞赛的形式呈现结果。

作为今年新闻机器翻译任务的七种语言之一,汉英翻译和英汉翻译是今年的两个新方向,训练数据从一万到一万不等。

共有20支队伍提交了中英翻译系统,15支队伍提交了英汉翻译系统。

参赛团队包括美国约翰·霍普金斯大学、美国空军研究实验室、加拿大国家研究院、爱丁堡大学(英文)。

、中国科学院计算技术研究所、厦门大学等。

此次获奖的搜狗机器翻译团队代表了搜狗在人工智能方面的最新进展,而王小川此前也曾提到,今年是搜狗人工智能技术的重要一年从尖端技术走向实际应用。

那么搜狗的前沿技术应用在哪些领域呢?语音交互入口下有哪些布局? (图为搜狗语音交互中心技术总监陈伟)智西西与搜狗语音交互中心技术总监陈伟、机器翻译技术负责人王宇光展开对话,看看这家公司,到底有什么名气其输入法,在人工智能方面有了新的进展。

建立机器翻译团队,实现跨语言沟通 搜狗的核心主要包括两个业务单元,一个是桌面业务单元,一个是搜索业务单元。

陈伟和王宇光工作的语音交互中心隶属于桌面业务部,而搜狗语音交互中心也是搜狗人工智能技术的代表。

2017年,恰逢搜狗语音识别团队成立,陈巍加入搜狗,博士期间的主要研究方向是语音识别。

是语音识别。

目前,专注于语音与输入法的结合,搜狗输入法每天收到的语音识别请求高达3亿次。

它是国内最大的语音单品APP,也展示了搜狗在语音识别方面的进步。

除了语音识别之外,围绕搜狗的人工智能战略,语音交互中心开始做自然交互。

语音技术部门以自然交互为主,逐步转向多模态输入(人机交互让机器理解人类信息,包括语音、文本、图像等)。

除语音识别外,语音技术部还开展语音合成、声纹识别、语音分析(语言)等技术的研究。

随着从近场手机发展到远场电视、音箱,这个部门也拥有了自己的麦克风阵列的硬件能力,形成了相对闭环的语音能力。

在此基础上,作为人们交流、表达信息的输入法产品,搜狗希望能够帮助用户实现跨语言交流,所以做了机器翻译,做了基于语音识别和机器翻译的搜狗机器。

同声传译。

此外,围绕自然交互,语音技术部也在进行手写和图像方面的研究。

语音+图像+文字的能力已经具备。

与语义理解团队一起,是一个完整的语音认知引擎。

未来,搜狗知音也将成为一个开放平台,输出一整套软硬件结合的语音交互解决方案,并将逐步标准化搜狗知音OS的能力,输出到最适合的场景。

依托数据优势构筑机器翻译技术壁垒。

本次WMT比赛获胜的机器翻译团队也隶属于语音技术部门。

随着2017年机器翻译从SMT(统计机器翻译)向NMT(神经网络机器翻译)迁移,搜狗语音技术部门开始做基于神经网络技术的机器翻译,并于2018年成立了机器翻译团队。

团队从一开始就致力于神经机器翻译技术。

花了不到半年的时间打磨技术并用在搜狗输入法上。

自输入法语音翻译和文字翻译上线以来,日均请求量已达数千次。

后来,在去年11月的世界互联网大会上,语音技术部结合现有的语音技术和机器翻译技术,推出了机器同声传译技术,并已在多个重要会议场所得到应用。

以中英文机器同声传译为例,大致需要将采集到的中文语音信息进行分割,得到小的语音片段,然后送入语音识别,得到文本。

这时候就需要对文本进行一些平滑的处理。

,将语音识别后处理后的文本发送到端到端的神经网络(目前机器翻译的主流方法),通过翻译器进行语音翻译。

在机器翻译中,各个公司使用的算法类型基本相同,但对相同数据的效果却截然不同。

对于搜狗来说,有两个重要的问题。

一是如何利用好数据(如单语数据),二是找到最合适的数据(选择数据)。

此外,搜狗机器翻译团队也在对翻译中的实体进行优化,包括多译漏译、数字等细节。

那么,刚刚成立一年多的机器翻译团队,搜狗相比其他机器翻译团队或者科大讯飞有哪些优势呢?智熙熙了解到,一方面是天赋。

搜狗做机器翻译的员工大多有5年以上的经验;其次,语音识别方面有很多经验可以借鉴。

依托之前语音团队的技术优势,也能助力机器翻译。

很大;第三,搜狗在输入法场景积累了大量用户数据,可以快速构建数据壁垒,但算法很难形成壁垒。

多年后,统计机器翻译原有的技术框架逐渐被推翻,需要重新组建新的技术框架。

此外,搜狗拥有国内最大的输入法,在这方面积累的语音数据比科大讯飞还要多。

难怪陈薇说搜狗在机器翻译方面与科大讯飞不相上下或者有优势。

就机器同声传译而言,目前搜狗的语音识别率达到97%,而机器翻译的准确率则略低,这也是行业的一个难题。

机器翻译最困难的部分是盲译。

翻译本身严重依赖上下文,而机器翻译没有任何背景知识。

此外,机器同声传译还必须尽可能实现低延迟。

搜狗在这方面将延迟控制在2、3秒以内。

对于搜狗机器同声传译的未来发展,一方面要保证稳定的语音识别率,比如在嘈杂的场景下;另一方面是机器翻译如何更好地找到完整的语言翻译边界。

同声传译系统的核心是建立连接语音识别和机器翻译文本的处理系统。

该处理系统可以接收语音识别的结果并进行容错。

另外,就是如何处理更多的口语表达,比如“this”、“that”,以及如何对句子进行分词,保证译文是一个完整的语义句子。

当这些问题得到解决后,机器同声传译的效果将会大大提高。

结论:搜狗语音交互入口下的机器翻译布局是搜狗重点布局方向之一,也是差异化优势。

但搜狗的人工智能并不止于此。

围绕语音交互入口,搜狗将在更多领域乃至智能硬件领域取得更进一步的进展。

搜狗技术目前实现的产品主要有搜狗输入法、搜狗同声传译、搜狗听写等产品。

大约在同一时间,搜狗也做了一款手机语音助手APP,但该项目后来陷入停滞。

搜狗也从这次经历中学到了“一个产品好不好,取决于你的产品边界是否清晰,你的技术能力能否满足产品需求”。

在这种情况下,搜狗将重点关注车辆和家庭两个方向的语音交互。

目前,搜狗正在与四维图新合作开展车载设备的人机交互,并与小米电视、创维电视等合作打磨语音交互技术。

预计未来将会推出更多基于搜狗语音技术的智能硬件产品。