当前位置: 首页 > 科技观察

Siri越来越“普及”,未来智能语音会有哪些突破?

时间:2023-03-14 18:51:07 科技观察

就人机交互而言,如何让机器拥有良好的听觉一直是近年来AI领域不懈追求的目标。2009年前后,深度学习模型的使用开始走出学术界,以语音唤醒、识别、增强和合成为代表的智能语音技术逐渐成熟。一个较早且典型的例子就是2011年Siri的诞生,智能语音已经成为人机交流和交互方式的新飞跃。经过十多年的发展,“嘿,Siri”式的人机问答不再局限于移动终端设备,已经走进千家万户,广泛应用于各种场景:居家伴侣智能音箱、方便网购的天猫精灵、会议同声翻译、出行时的车载语音导航助手等。随着越来越多的互联网公司和上游厂商在智能语音赛道的积极布局,智能语音客户的质量服务、对话式AI应用、AI虚拟助手等产品进一步完善,对语音的响应更自然,对问题的理解更好。准确,并有自己的“小情绪”。数字浪潮时代,万物互联的趋势势不可挡。智能语音作为人机交互的关键接口,正处于与实体经济深度融合碰撞的时期。随着应用场景的进一步下沉和扩展,我们也看到了很多具有挑战性的问题,比如:如何识别说话人、如何识别方言、如何消除歧义等都是最新的研究热点。一项技术成熟的背后,往往蕴藏着一些潜力,包括它在实际应用中的创新能力,以及它更有潜力的演进方向。展望下一阶段,智能语音技术也将出现新的演进趋势,例如:深度集成的AI语音芯片能否替代云跑模式?多模态融合、无监督学习、脑学科交叉融合等创新研究能否取得突破性成果?我们拭目以待。那么,各大企业在智能语音技术的实践探索中遇到了哪些实际生产问题呢?如何解决?取得了哪些进展?行业发生了哪些新变化?下一步的发展趋势是什么?“AISummit全球人工智能技术大会”智能语音技术专场带你深度思考!8月7日,致力于打造智能语音的“AISummit全球人工智能技术大会”来袭!您对哪些主题感兴趣?主题一:Jobbang语音技术实践一、语音识别技术探索:分享语音识别技术在端到端、高效利用数据等大规模实际应用场景,并提出基于前缀自动机的热词技术解决方案.2.语音评测技术实践:在语音发音纠错技术方面,结合作业帮的高并发场景,提出了多任务知识迁移和多模态特征融合方案,大大提升了模型的因子判别能力能力和噪声环境下的检错能力。并针对语音测评实施难的痛点,提出了一种高性能的云端综合测评技术。3、语音合成技术框架:分享作业帮助基于进一步完善现有小数据量语音技术框架的思考和实践。主题二:字节跳动语音识别技术在飞书会议中的应用1、语音识别技术在办公场景的应用流程:办公邮箱、即时通讯语音输入、办公语音助手、实时字幕&会后转录。2.思考解决方案:智能会议,提高效率。3.挑战与机遇:语音识别任务的挑战,下游任务带来的挑战,会议提供额外信息。4.关键算法工作介绍(端到端语音识别系统):Transducer&CIF、动态+静态热词、Context-aware。主题三:高层语音合成系统搭建实践1.高层语音合成系统背景介绍及问题分析。2.高级语音合成系统的设计思路与实现。3.实验评价。4.未来的工作前景。主题四:SOUL社交场景下的智能语音技术实践之路1.SOUL社交元界场景中端到端语音识别2.多模态语音合成技术构建路线3.在语音安全和语音等业务场景中下图语音交互应用专题5:58同城端到端语音识别技术探索与实践1、58同城语音识别应用场景:AI智能语音应用、语音识别环节介绍、挑战及技术路线2、模型基于WeNet的优化工作:半监督训练、EfficientConformer、模型压缩3.端到端语音识别部署方案:自研引擎架构、Wenet解码服务部署、流/非流解码性能测试重量级嘉宾?1.宋扬,作业帮首席算法专家,智能平台负责人,特约制作人宋扬在百度工作7年,从事算法研发工作。2015年加入Jobbang,担任智能中台部负责人。为公司各项业务输出数据挖掘、NLP、语音等中台技术能力。先后负责搜索答疑、个性化推荐、智能质检、语音测评、Service智能调度等方向。2、Jobbang语音技术团队负责人王强强。加入Jobbang之前,王强强就职于清华大学电子工程系语音处理与机器智能实验室。他负责实施语音识别算法和构建工业级解决方案。2018年加入Jobbang,负责语音相关算法的研究和实现。他主导了Jobbang语音识别、评估、合成等算法的实现,为公司提供了一套完整的语音技术解决方案。3、字节跳动AILab语音识别算法研究员张军长期从事语音识别、语音唤醒等语音算法的研究与应用,经验丰富。2018年加入字节跳动AILab智能语音团队。目前主要负责智能办公、智能硬件、智能客服等领域的语音技术解决方案建设。4.徐坦,微软亚洲研究院负责人徐坦,研究领??域包括深度学习、自然语言/语音/音乐、AI内容生成等,开发的机器翻译和语音合成系统获得多项竞赛冠军,达到人类学术评估集中的水平。预训练语言模型MASS、语音合成模型FastSpeech/NaturalSpeech、AI音乐项目Muzic等研究工作引起业界广泛关注。5、SOUL语音算法负责人刘忠良刘忠良毕业于中科院研究生院,硕士。目前担任SOUL语音算法负责人。曾就职于搜狗AI交互部、陌陌大数据部。近10年来,主要从事语音唤醒、语音识别、语音合成、音频音乐理解等语音技术系统的研发工作。创造最好的可以实施的语音技术。6.58同城AILab语音算法部负责人、算法架构师周炜58同城AILab语音算法部负责人、算法架构师语音合成算法。2016年毕业于中国科学院大学,获硕士学位。毕业后参与对话式AI产品的创业。2018年5月加入58同城,参与了智能客服、智能外呼、智能写作等AI项目的NLP算法研发。2019年开始专注于语音算法方向,带领团队在58同城语音处理引擎中自主研发语音算法从0到1,还有哪些精彩活动?AISummit全球人工智能技术大会除了精彩的AI技术大咖精彩实战创新干货分享外,还为参会的朋友们准备了丰富的会前会场互动福利。加入这场盛会,拓展你的技术能力和人脉资源,顺便把惊喜好礼带回家!活动包括“做人不让步”、“工作享福”、“智慧联谊”四个趣味互动游戏等四个趣味互动游戏。总会有一份精美的礼物让你惊喜!那么,传说中神秘的终极大奖会是什么呢?等着热爱科技的你来现场揭秘!(PS:听说越早预约中奖机率越高!)如何快速预约?点击进入AISummit全球人工智能技术大会官网,按照提示填写并提交信息即可完成报名。扫码加入大会官方群,参与抽奖,赢取SONY音响、冰盾盾、AI技术书籍、红包等精美礼品。