当前位置: 首页 > 科技观察

达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验

时间:2023-03-19 17:52:36 科技观察

达摩院公布语音AI新进展:移动端也能实现接近真人的语音交互体验识别和语音合成能力首次达到媲美云端的水平未来,个人用户可以在移动终端上轻松体验接近真人的语音技术。据介绍,达摩院最新语音技术已广泛应用于淘宝直播、钉钉会议、高德导航等场景,并全面向公众开放。语音AI的核心是让机器能够听懂人的话并说话。语音合成和语音识别技术是实现这些目标的基础。然而,由于过去几年语音模型缺乏突破性创新,高精度的语音交互任务长期依赖云计算能力,导致语音指令处理的延迟不可避免。此次,达摩院率先实现了算法模型的创新,推出了E2E-ASR端到端语音识别技术和全新的端到端KAN-TTS语音合成技术,这在国内尚属首次。时间在移动端实现了接近云端的语音识别和合成效果。据介绍,在语音识别方面,达摩院提出了SAN-M网络结构和基于SCAMA的流式端到端语音识别框架,不仅提高了计算效率,还降低了语音识别错误率。困难场景减少近30%。达摩院开发的语音识别系统可以完全离线、低成本地部署在移动端。原型系统不到40MB,识别效果媲美达摩院上一代DFSMN-CTC云系统100多GB。继去年发布仿真率97%的自主研发KAN-TTS语音合成模型后,达摩又在移动端实现了语音模型的“大瘦身”。与云端相比,终端上的模型体积缩小了101%,计算量减少了35倍,通过终端算力可以快速再现接近真人的语音。例如,高德最近发布了李佳琦、林志玲、小团团等明星导航语音包,采用达摩院新语音技术合成。语音效果比以前更自然,即使断网也不会中断语音导航。达摩院语音实验室负责人严志杰表示,“在终端上处理语音任务一直是学术界和工业界的难题,达摩院最新的语音技术有效释放了终端设备的能力,让终端能够轻松处理语音任务,我们相信在终端算力和云算力的协同支持下,未来语音交互将无处不在。”过去几年,阿里语音AI取得了一系列突破,2019年,阿里语音AI入选《麻省理工评论》“全球十大突破性技术”,是唯一一家上榜的中国科技公司;根据IDC今年7月发布的《中国AI云服务市场半年度研究报告》,阿里VoiceAI以44%的市场份额在云端语音AI市场中排名第一。