11月28日,百度大脑语音能力引擎论坛在北京举行。
现场百度CTO王海峰宣布,百度语音技术日调用量突破1亿,位居全国第一。
随后,百度CTO王海峰,百度语音首席架构师贾磊发布了全新的智能语音交互技术——“基于复杂卷积神经网络(Convolutional Neural Network,CNN)的语音增强与声学建模一体化端到端建模技术”,颠覆了传统的智能语音交互技术。
基于数字信号处理的传统麦克风阵列算法,这无疑为语音领域注入了新的动力。
早在2017年,百度就将深度学习技术应用于中文语音搜索。
现在,百度APP以及国内出货量最大的智能音箱均搭载了百度语音技术。
百度语音技术也广泛应用于各行各业。
百度语音首席架构师贾磊透露了大量语音领域的技术细节。
他分享道,百度基于卷积神经网络(CNN)的语音增强和声学建模端到端一体化建模技术,放弃了数字信号处理和语音识别学科的各种先进技术。
测试假设,消除学科之间的障碍,直接进行端到端集成建模。
与基于数字信号处理的传统麦克风阵列算法相比,错误率降低了30%以上。
据公开资料显示,国际上采用类似思路和方法的相对错误率降低仅为16%。
该方法现已集成到百度最新的百度鸿鹄芯片中。
端到端、跨学科、大数据驱动,百度在语音前沿领域无疑做了大量工作,而这次语音算法的创新突破无疑给行业注入了一剂兴奋剂。
众所周知,远场语音识别是语音领域备受关注并致力于解决的问题。
典型的远场语音识别应用场景是用户站在3米甚至5米外与智能音箱对话。
在远场环境下,目标声源距离拾音器较远,导致目标信号衰减严重。
另外,环境噪声大,干扰信号多,最终导致信噪比低,语音识别性能差。
为了提高远场语音识别的准确率,一般采用麦克风阵列作为拾音器。
采用多通道语音信号处理技术,增强目标信号,提高语音识别准确率。
传统的数字信号处理技术已经不能满足技术发展的需要。
在麦克风阵列系统中利用深度学习技术替代传统的数字信号处理已经开始成为行业的主流。
但业界此前提出的解决方案要求深度学习模型的结构设计符合数字信号处理流程,严重影响了深度学习技术朝这个方向的发展和延伸,制约了模型的演进深度学习模型的结构和限制技术。
创新与发展。
此次,百度提出了基于卷积神经网络(CNN)的语音增强和声学建模一体化端到端建模技术。
模型底层以复杂CNN为核心,利用复杂CNN网络挖掘生理信号的本质特征,利用复杂CNN、复杂全连接层、CNN等多层网络直接进行多尺度和对原始多通道语音信号进行多级处理。
信息提取,充分挖掘频段之间的相关耦合信息。
在保留原始特征相位信息的前提下,同时实现前端声源定位、波束形成和增强特征提取。
将模型底层CNN抽象出来的特征直接输入到百度独有的端到端流式多级截断注意力模型中,从而实现从原始多路麦克风信号到目标文本的识别。
模具。
整个网络的优化准则完全依赖于语音识别网络的优化准则,模型参数的调整都是以提高识别率为目标。
该方法的成功进一步揭示了深度学习技术在人工智能工业应用中的巨大潜力。
同时透露,端到端建模、跨学科端到端建模、大数据驱动等技术方向是深度学习下一步产业应用和效果提升的重要发展方向。
论坛上,新发布了三款基于搭载该语音技术的鸿鹄语音芯片的硬件产品:芯片模块DSP芯片+Flash、Android开发板DSP芯片+RK、RTOS开发板DSP芯片+ESP32。
此外,贾磊还介绍了基于鸿鹄语音芯片的端到端软硬件一体化远场语音交互解决方案以及新发布的智能家居、智能汽车、智能物联网设备三大场景解决方案。
纵观全球人工智能发展历程,百度语音在技术创新上一直处于领先地位。
今年年初,百度提出了截断注意力模型SMLTA,显着提高了整句、方言、中英文混合的识别率。
它也是世界上第一家在语音识别领域实施注意力模型的大公司。
大型工业在线产品上线。
在语音合成领域,百度大脑也引起了业界的关注。
首次Tacotron+wavRNN联合训练,成为全球首个推出waveRNN技术的语音平台,大幅提升云合成速度,语音合成的自然度几乎与真人一样自然。
百度地图20句语音导航录制技术基于百度原创风格迁移技术Meitron模型。
其特点主要体现在音色转换、多情感朗读和节奏传递三个方面,从而大大降低了语音合成的门槛。
语音技术作为人工智能重要的感知层技术,是人机交流的重要桥梁,也是未来人工智能发展的重要支柱。
作为百度AI的集大成者,百度大脑在语音技术上不断发力,让人工智能在各行各业“张口听”,包括出行、搜索、家居、输入法……百度大脑的语音技术正在加快实施。
目前,百度大脑已通过AI开放平台开放技术能力,接入超过1万名开发者。
此次宣布语音科技日均调用次数突破1亿次,位居全国第一。
百度大脑为行业开创了“能听、能说”的语音交互时代。
更令人欣慰的是,越来越多的行业合作伙伴正在加入百度大脑语音生态,与百度携手迎接全球人工智能语音的“风暴时刻”。