当前位置: 首页 > 科技观察

AI智能语音识别算法部分

时间:2023-03-13 06:30:41 科技观察

一、声源定位1、电子扫描阵列当系统扫描到最大输出信号功率时,对应的波束方向被认为是声源的DOA方向,从而使声音可以定位源。电扫阵方式有一定的局限性,只适用于单一声源。如果多个声源在阵列模式的同一个主波束中,则无法区分它们。2、超分辨谱估计如MUSIC、ESPRIT算法等,对其协方差矩阵(相关矩阵)进行特征分解,构建空间谱,关于方向Spectrum,谱峰对应的方向为声源方向.适用于多种声源,且声源的分辨率与阵列大小无关,突破物理极限,成为超分辨率频谱方案。3.TDOATDOA是逐次估计声源与不同麦克风的延迟差,通过时间延迟计算出距离差,然后利用距离差和麦克风阵列的空间几何位置来确定声源的位置.它分为两个步骤:TDOA估计和TDOA定位。2.Beamforming1.CBF-traditionalbeamformingCBF是最简单的非自适应波束形成。对每个麦克风的输出进行加权和求和以获得波束。在CBF中,每个通道的权值是固定的,作用是抑制阵列方向图的旁瓣电平,滤除旁瓣区的干扰和噪声。2.CBF+AdaptiveFilterEnhancedbeamformingCBF+AdaptiveFilter结合Weiner滤波器来提高语音增强的效果,带噪语音经过Weiner滤波得到基于LMS准则的纯语音信号。滤波器系数可以不断更新迭代,与传统的CBF相比,可以更有效地去除非平稳噪声。3.ABF-AdaptiveBeamForming基于CBF,ABF对干扰和噪声进行空间自适应滤波。在ABF中,采用不同的滤波器得到不同的算法,即根据某种最优准则对不同通道的幅度加权值进行调整和优化。3、语音增强语音增强是指语音信号受到各种噪声(包括语音)的干扰甚至淹没后,从含有噪声的语音信号中提取出纯语音的过程。4.混响抑制利用麦克风阵列混响的方法主要有以下几种:(1)基于盲信号增强方法(Blindsignalenhancementapproach),将混响信号作为普通的加性噪声??信号。应用语音增强算法。(2)基于波束形成的方法,通过对多个麦克风收集的信号进行加权和求和,在目标信号的方向形成拾音波束,同时衰减来自其他方向的反射声。(3)基于逆滤波方法(Aninversefilteringapproach),通过麦克风阵列估计房间的房间脉冲响应(RoomImpulseResponse,RIR),设计重构滤波器补偿和消除混响。5.噪声抑制语音识别不需要完全去除噪声,相对而言,通信系统中必须完全去除噪声。这里所说的噪音一般是指环境噪音,比如空调噪音。这种噪声通常没有空间方向性,能量也不是特别大。它不会掩盖正常的语音,只会影响语音的清晰度和可懂度。这种方法不适合在强噪声环境下处理,但对于日常场景中的语音交互来说已经足够了。6.回声消除回声消除是在Mic采集声音后,从Mic采集的声音数据中消除本地扬声器播放的声音,使Mic录制的声音只是本地用户的声音。