上周,亚马逊在美国西雅图的新闻发布会上推出了十余款 Alexa 设备。
大多数设备主要由Alexa语音平台驱动。
其中一些设备将添加“耳语模式”功能,允许 Alexa 设备以耳语方式响应用户的耳语。
近日,亚马逊 Alexa 语音系统团队专家 Zeynab Raeesy 在博文中透露了该功能的 AI 基础。
Raeesy在博文中说道:“如果你在一个有孩子睡觉的房间里,当有人走进来时,你会立即小声提醒那个人你希望房间安静,而进来的人也意识到了这一点到时候你说不定也会压低声音。
” Raeesy指出,Alexa的耳语模式难以理解的地方在于它是清音的,即不涉及声带振动,并且往往比普通语音有更多的低频频率。
更少的能量。
她和小组中的同事研究了两种可以区分正常言语和听觉言语的神经网络。
这两类神经网络主要在结构上有所不同。
一种是 MLP(多层感知器),另一种是可以执行时间递归的 LSTM(长短期记忆)网络。
训练时使用的数据是相同的。
,这些数据包括(1)对数滤波器组能量,或者用于记录不同频率范围内的信号能量的语音信号表示; (2)一组能够区分人耳语音和正常语音信号差异的特征。
在测试中,他们发现LSTM的表现比MLP更好,并且有很多优势。
Raeesy解释说,Alexa语音识别引擎的其他组件完全依赖对数滤波器组能量,向不同组件提供相同的输入数据,从而使整个系统更加紧凑。
Alexa Whisper Mode 的开发并不总是一帆风顺,至少在最初是这样。
由于 Alexa 使用短时间的沉默(一种称为“结束指向”的技术)来识别指令的结束或做出响应,因此当话语即将结束时,LSTM 通常会降低置信度。
为了解决这个问题,研究人员将 LSTM 的输出校准为整个话语的平均值。
最终,减少最后 1.25 秒的语音数据成为维持“耳语模式”性能的关键。
美式英语的耳语模式功能将于今年11月上线。
关于耳语模式具体工作原理的介绍将于12月的IEEE语音技术研讨会上以论文的形式发表。