近二十年来,语音识别技术取得了长足的进步,开始从实验室走向市场。预计未来10年,语音识别技术将进入工业、家电、通讯、汽车电子、消费电子等各个领域。语音识别是人工智能最早、商业化的技术。近年来,随着深度学习技术的突破,识别准确率大幅提升,带动了一波行业热潮。对于语音识别的未来发展,你们也有一些精彩的论据。科大讯飞研究院副院长王士进表示,语音识别是人机交互中非常重要的一个模块。从PC时代到现在的移动互联网时代,人机交互已经从鼠标键盘转向智能手机、Pad等点触。智能硬件时代,交互更加多样化,不仅是触摸,还有语音、视觉交互。人机交互,原本以机器为中心,逐渐走向以人为中心的自然交互。他认为,在未来万物互联的浪潮下,以语音为主,键盘、触摸、视觉、手势为辅的交互时代即将到来。谈及传统语音交互,王士进列举了几个缺点:第一,交互距离必须近;第二,发音要标准;第三,环境要安静;第四,人机无法继续对话。科大讯飞于2015年提出AIUI,旨在解决上述问题,期望提供人工智能时代的智能人机交互界面。AIUI提供远场唤醒识别和降噪解决方案,兼容全国近17种方言。可根据业务场景进行全双工交互和多轮对话。同时结合讯飞超脑的认知智能,让机器交互更加智能。AIUI实现软硬件一体化、云端一体化、技术服务一体化,通过三大融合提供人机智能交互整体解决方案,让用户快速切换到新的业务场景。在谈到一些基于AIUI交互技术的商业化尝试时,王士进列举了几个:在沟通方面,科大讯飞在2005年推出了听智能会议产品,一般来说会议场景的同声传译准确率在80%左右,而智能会议转录的准确率可达90%以上。后来,它被应用于医疗和司法系统。此外,科大讯飞还推出了一款便携翻译机,方便随身携带,方便远程实时沟通。在电视方面,最早的电视使用数字加上下左右按键控制的只有十几台,而现在智能电视后台接入海量资源,讯飞智能电视助手可以进行便捷的语音操作互动,节省时间。在汽车方面,由于人在开车时不能离开方向盘,引入语音代替手来进行交互会方便很多。事实上,相对于其他应用场景,语音识别由于车内场景噪声更强,面临更大的挑战,而科大讯飞也基于车载语音识别做了很多优化,甚至在全球车载应用中宝马、梅赛德斯-奔驰和通用汽车。获得语音识别比赛第一名,有效支持车载场景交互。在机器人方面,机器人与人的语音交互满足自然交互、个性化服务、基于业务场景的综合服务。可以随意随意打断,在了解用户需求的情况下进行精准的内容推荐和服务。语音识别和自然语言理解都是基于统计和概率系统,所以商业化过程建议选择人员有限的场景(比如车内)或者很难做对的事情(比如会议同声传译)),然后随着技术的完善和进一步的成熟,可以进入更多的场景。***,王世锦总结道,“语音识别和人机交互技术在技术优化的同时,必须结合应用场景,最终会带来更好的技术,更好的产业发展。”百度语音技术部声学技术负责人——李先刚提到了近几年百度语音搜索在手机端的不断优化过程。李先刚认为,要想做好这样一款产品,首先要收集相关数据,然后将语音识别应用推广到相关产品线,供用户使用。用户在使用后会反馈返回的数据形成一个完整的链条,最终达到一个非常完美的状态。他将输入法在语音识别中的作用表述为:输入法的场景对提高语音识别的性能非常有帮助。今年,百度在语音技术方面的进展包括基于GramCTC的端到端语音识别系统和端到端说话人识别技术。基于CTC的端到端语音识别系统是目前主流的工业系统。2015年底,百度实现了CTC端到端语音识别系统。今年,百度进一步提出了GramCTC算法。主流的说话人识别技术采用经典的DNN-IVECTOR技术,其框架基于统计模型,并将DNN引入该框架进行学习。可以看出,语音识别已经走向大数据和端到端,百度也将研发说话人识别技术,进一步提升相关性能。李先刚表示,人脸识别和说话人识别有技术共性。两者的区别在于,人脸识别对象可以是固定大小的图片,语音的时长会有很大差异。因此,百度的说话人识别技术借鉴了目前人脸识别最好的方法——度量学习,构建了一个端到端的度量学习说话人识别系统。百度内部实验表明,端到端的说话人技术显着提升了说话人识别的性能。从商业化的角度分析语音识别,其应用可以分为两个维度,一是近场和远场,二是人机说话和人对人说话的不同说话方式。这样划分之后,会发现很多语音场景其实是在不同的语音象限。目前业界实现的近场人机语音识别准确率可以达到90%以上,但其他场景的表现并不尽如人意。在李先刚看来,随着语音技术的进步,辅以商业场景,必将推动产品和技术的发展。搜狗语音交互技术中心研发总监陈薇——从2012年至今,随着数据和算法的提升,搜狗语音识别的识别错误率逐年下降。陈薇分享了一组数据:截至目前,搜狗输入法每天接收语音识别请求多达2亿次,每天生成语料18万小时。陈薇表示,搜狗在2016年发布知音引擎,输出完整的语音交互解决方案,一直在探索语音识别和交互的不同场景和体验。语音识别可以更好地提高输入、记录和交流的效率。可分为听写和抄写。听写对实时性要求更高,而转录则面向客服数据,对实时性要求不高。另外,语音识别技术是面向不同客户的。除了直接提供给消费者外,还有一些公司和企业如法院、医院等。语音识别的应用场合更多的是演讲、直播、语音分析。语音识别不是一项单独的技术。它需要与其他技术相结合,例如机器同声传译和语音交互。未来的产品将是技术与技术的结合,产品与产品的结合。对于如何做好语音交互产品,陈薇认为,首先是要注重场景和知识。只有将技术(ASR、NLU等)与车辆、智能家具、可穿戴设备等特定应用场景相结合,才能得到稳定的产品。此外,光有技术是不够的,还需要技术创新。在获得良好的用户体验后,用户群将扩大并带来更多数据。这些积累的数据也是推动技术进步的关键。只有有了产品的迭代,有了真实的数据,才能更好地分析用户需求,更好地推动产品的发展。他说,技术和产品缺一不可。“语音交互是技术驱动的,加上好的算力带来大量的数据,在此基础上进行迭代,通过技术和产品的耦合,不断得到更好的产品。”间谍CMO——龙梦珠《当前语音》产品识别率再高,也只是作为参考。龙梦珠提到,在识别率这个数字背后,降噪、远场、回声消除和声源定位等也需要关注。这些词在整个语音技术中的作用是什么?它会影响识别率和准确率,是判断语音交互产品是否实用的重要方向。目前所有公司都在做端到端的、非协同的私有交互系统。整个系统基本上分为三个层次:从感知,到认知,再到抽象思维的智能。首先,从感知的角度来说,要保证机器听得清楚,克服环境和降低噪音有很大的挑战。以Aspire为例,依托其强大的数据库,已经将错字率降低到7.19%,与业界普遍的10%相比,效率提升非常大。另外,听清楚后,机器需要快速响应。客户经常会问“你的产品是本地的还是云端的?”其实业界包括Aspire在做的就是本地+云,一些简单的唤醒词和指令可能会放在本地。目前Aspire本地识别指令目前最多支持3000条。当然,最大支持数量与产品的硬件配置和系统有关。而更多需要沟通和机器思维的部分,则放在了云端。***,机器听得清楚,反应快,反应的效果如何?这种效果在技术上可以称为TTS,TTS的好坏将在很大程度上决定产品体验的好坏。很多人理解的TTS可能是某个明星的合成语音,而这些合成语音并不能适用于所有场景。目前业界提出的97%、98%、99%的识别率,仅针对语音识别而言。在不同的领域和场景下,针对不同业务方向的语音识别和语义理解其实是处于不同层次的。该图显示了家庭和汽车环境中的不同准确率。龙梦珠表示,无论语音交互技术应用于哪个领域,都必须满足几个要求:一是要满足用户的需求;第二,不一定是高频使用,但可以让用户在某个场景产生依赖。第三,语音技术必须有第三方内容和服务的支持,因为它只是一种交互手段;“我们一再强调,语音只是一种交互方式,而不是一种功能。”现在Voice还没有达到在全国人民中普及的程度,但是未来一定会实现。而对于这种方式,背后的第三方内容和服务比语音本身更重要。***,交互体验一定不错。
