10月30日消息,在刚刚结束的李佳琦直播间,剁手党首次通过阿里语音机器人实现了与主播的实时互动。直播过程中,数十万用户同时用语音回答了李佳琦的提问。最终,机器人在50毫秒内完成了语音识别和语音反馈的全过程,反应速度是传统语音的20倍。淘宝直播间内的观众通过语音与李佳琦进行互动语音机器人成为了决定这一互动过程能否顺利进行的关键。据介绍,一场淘宝直播的观看人数可达数百万甚至上千万,而且用户分布在全国各地,口音差异较大。目前主流的语音技术方案很难在短时间内快速响应如此庞大的用户量。以语音为例,Siri识别用户语音的响应时间超过1秒,无法满足直播场景下的强交互需求。淘宝直播间采用了达摩院最新的移动端离线端到端语音识别技术。基于全新的网络结构和语音识别框架,即使在低端手机上,也能在50毫秒内完成语音交互过程,比传统语音识别快20倍;此外,这项技术还解决了语速过快和口音重等问题,困难场景下的语音识别错误率降低了近30%。达摩院语音实验室技术专家万玉龙表示,“在对实时性要求极高的场景下,传统的云语音解决方案无法满足需求。这套语音技术的创新之处在于提高了识别速度和准确性。AI模型部署在每个用户的淘宝直播APP上,即使直播间有数千万用户,AI也不会漏听和慢判断。”过去几年,阿里语音AI在基础研究和应用方面取得了一系列成果和突破,2019年阿里语音AI入选《麻省理工评论》“全球十大突破性技术”,是唯一上榜的中国科技公司;根据IDC今年7月发布的《中国AI云服务市场半年度研究报告》,阿里语音AI以44%的市场份额在云端语音AI市场中排名第一。
